《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 電源技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于規(guī)則和詞典的用電安全領(lǐng)域命名實(shí)體識(shí)別
基于規(guī)則和詞典的用電安全領(lǐng)域命名實(shí)體識(shí)別
2022年電子技術(shù)應(yīng)用第12期
袁金斗1,潘明明1,張 騰2,姜 玨1
1.中國(guó)電力科學(xué)研究院有限公司,北京100192;2.國(guó)網(wǎng)江蘇省電力有限公司,江蘇 南京210000
摘要: 在用電安全領(lǐng)域,存在著大量數(shù)據(jù)、知識(shí)未得到充分挖掘和利用,構(gòu)建領(lǐng)域知識(shí)圖譜不僅可以實(shí)現(xiàn)用電安全知識(shí)的整合,還能極大地提高電力行業(yè)的工作效率。命名實(shí)體識(shí)別是構(gòu)建知識(shí)圖譜的基礎(chǔ)性工作,研究了基于字典和規(guī)則的命名實(shí)體識(shí)別,通過領(lǐng)域?qū)嶓w詞典、構(gòu)詞特征字符規(guī)則匹配和詞性組合特征規(guī)則匹配三種方法從非結(jié)構(gòu)文本中準(zhǔn)確地提取用電安全相關(guān)實(shí)體,為用電安全領(lǐng)域知識(shí)圖譜的構(gòu)建提供高質(zhì)量和高精度的實(shí)體。為優(yōu)化識(shí)別流程、提高響應(yīng)速度,將通用詞性標(biāo)注任務(wù)交由邊緣節(jié)點(diǎn)進(jìn)行處理,中心服務(wù)器僅需響應(yīng)規(guī)則模板匹配等任務(wù)。在小規(guī)模測(cè)試實(shí)驗(yàn)中,綜合使用三種方法對(duì)用電安全文本進(jìn)行領(lǐng)域?qū)嶓w識(shí)別,F(xiàn)1值能達(dá)到85%以上。
中圖分類號(hào): TP391.1
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.223323
中文引用格式: 袁金斗,潘明明,張騰,等. 基于規(guī)則和詞典的用電安全領(lǐng)域命名實(shí)體識(shí)別[J].電子技術(shù)應(yīng)用,2022,48(12):22-27.
英文引用格式: Yuan Jindou,Pan Mingming,Zhang Teng,et al. Electricity safety domain named entity recognition based on rules and dictionaries[J]. Application of Electronic Technique,2022,48(12):22-27.
Electricity safety domain named entity recognition based on rules and dictionaries
Yuan Jindou1,Pan Mingming1,Zhang Teng2,Jiang Jue1
1.China Electric Power Research Institute,Beijing 100192,China; 2.State Grid Jiangsu Electric Power Co.,Ltd.,Nanjing 210000,China
Abstract: In the field of electricity safety, there are a lots of data and knowledge has not been excavated and utilized, constructing a knowledge graph in the electricity safety field can not only integrate power knowledge, but also greatly improve the efficiency of the power industry. Named entity recognition(NER) is the basis for constructing knowledge graph, this paper studies the named entity recognition based on dictionaries and rules, through three methods: the domain entity dictionary, the word-building feature character rule matching and the part-of-speech combination feature rule matching,to accurately extract electricity safety related entities from non-structured text, providing high-quality and high-precision entities for the construction of knowledge graph in the field of electricity safety. In order to optimize the recognition process and improve the response speed, the general part-of-speech tagging task is sent to the edge node for processing, and the central server processes the rule template matching task. Experimental results show that using the three methods comprehensively to recognition the domain entity of small-scale electricity safety text, the F1 score can reach more than 85%.
Key words : electricity safety domain;NER;domain dictionary;featured character rules;part-of-speech combination rules

0 引言

    命名實(shí)體識(shí)別[1-3](Named Entity Recognition,NER)在通用領(lǐng)域中主要是指識(shí)別文本中的人名、地名、機(jī)構(gòu)名、時(shí)間、貨幣等具有特定意義的實(shí)體。目前,命名實(shí)體識(shí)別的主要方法包括三類:基于規(guī)則[4]和詞典[5-6]的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法[7]和基于深度神經(jīng)網(wǎng)絡(luò)的方法[8]。

    目前,用電安全領(lǐng)域缺乏權(quán)威數(shù)據(jù)集[9],命名實(shí)體識(shí)別研究工作首先需要對(duì)語(yǔ)料集進(jìn)行序列標(biāo)注,標(biāo)記非結(jié)構(gòu)文本中的相關(guān)實(shí)體、無關(guān)字符、詞性序列等,在此研究背景下,采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)的方法較難獲取大規(guī)模的訓(xùn)練語(yǔ)料集。因此,本文主要基于規(guī)則和詞典的方法對(duì)實(shí)體命名識(shí)別進(jìn)行第一階段研究,發(fā)掘用電安全領(lǐng)域?qū)嶓w構(gòu)詞規(guī)則及詞性特征,構(gòu)建領(lǐng)域詞典及規(guī)則模板,進(jìn)一步擴(kuò)充語(yǔ)料庫(kù),為后續(xù)用電安全領(lǐng)域命名實(shí)體識(shí)別的機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)方法的研究奠定基礎(chǔ)。

    從技術(shù)角度分析,如果構(gòu)建的領(lǐng)域詞典能夠覆蓋待識(shí)別文本中絕大多數(shù)相關(guān)實(shí)體,那么,基于詞典的命名實(shí)體識(shí)別方法將具有高準(zhǔn)確度及高響應(yīng)度。但是,領(lǐng)域?qū)嶓w的多樣性、復(fù)雜性、衍生性導(dǎo)致構(gòu)建覆蓋全面的高質(zhì)量詞典較為困難。因此,基于詞典的方法通常是基于規(guī)則方法的輔助補(bǔ)充手段[10]。基于規(guī)則的實(shí)體命名識(shí)別多采用人工歸納并構(gòu)造規(guī)則模板,選用特征包括標(biāo)點(diǎn)符號(hào)、關(guān)鍵字、指示詞和方向詞、位置詞(如前后綴)、中心詞等,以規(guī)則模板的正則匹配為主要手段[11]。當(dāng)語(yǔ)料規(guī)模不大且提取的規(guī)則能比較精確地反映語(yǔ)言現(xiàn)象時(shí),基于規(guī)則和詞典的方法其性能要優(yōu)于基于統(tǒng)計(jì)的方法[12]。

    另一方面,物聯(lián)網(wǎng)設(shè)備和數(shù)據(jù)的爆發(fā)式增長(zhǎng),使得基于云計(jì)算模型的聚合性服務(wù)逐漸顯露出其在實(shí)時(shí)性、網(wǎng)絡(luò)制約、資源開銷等方面的不足。為彌補(bǔ)集中式云計(jì)算的不足,本文采用邊緣計(jì)算架構(gòu),其優(yōu)勢(shì)在于能夠在數(shù)據(jù)產(chǎn)生側(cè)快捷、高效地響應(yīng)業(yè)務(wù)需求,減小服務(wù)對(duì)網(wǎng)絡(luò)的依賴,在離線狀態(tài)下也能夠提供基礎(chǔ)業(yè)務(wù)服務(wù)。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://www.jysgc.com/resource/share/2000005035




作者信息:

袁金斗1,潘明明1,張  騰2,姜  玨1

(1.中國(guó)電力科學(xué)研究院有限公司,北京100192;2.國(guó)網(wǎng)江蘇省電力有限公司,江蘇 南京210000)




wd.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 久久中文精品无码中文字幕| 亚洲码欧美码一区二区三区| 99精品视频在线观看| 日产亚洲一区二区三区| 亚洲A∨无码一区二区三区| 秋葵视频在线观看在线下载| 国产乱人伦精品一区二区| 51国产偷自视频区视频| 女博士梦莹全篇完整小说| 中文字幕亚洲综合久久综合| 欧美freesex10一13| 伊人婷婷综合缴情亚洲五月| 精品国产精品国产偷麻豆| 国产一区二区三区免费播放| 韩国黄色片在线观看| 国产成人精品一区二区秒拍| 男人一进一出桶女人视频| 国内偷窥一区二区三区视频| 丁香婷婷六月天| 成年人黄色一级片| 久久99精品久久久久久动态图| 欧美一区二区久久精品| 今天免费中文字幕视频| 精品午夜福利1000在线观看| 国产99视频精品草莓免视看| 里番库全彩本子彩色h可知子| 国产精品日韩欧美亚洲另类| 一区二区三区国产最好的精华液| 日本精品少妇一区二区三区| 五月婷婷一区二区| 棉袜足j吐奶视频| 亚洲乱码无限2021芒果| 渣男渣女抹胸渣男渣女| 伊人色综合久久天天| 第一福利官方导航| 免费观看日本污污ww网站一区| 蜜桃麻豆www久久国产精品| 国产国产成人久久精品杨幂| 麻麻张开腿让我爽了一夜黄文| 国产精品综合一区二区| 91丨九色丨首页在线观看|