《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 基于詞匯增強和表格填充的中文命名實體識別
基于詞匯增強和表格填充的中文命名實體識別
電子技術應用
褚天舒1,唐球1,梁軍學2,徐睿1,王明陽2,劉濤2
1.華北計算機系統工程研究所,北京 100083;2.中國人民解放軍93216部隊,北京 100085
摘要: 中文命名實體識別主要包括中文平面命名實體識別和中文嵌套命名實體識別兩個任務,其中中文嵌套命名實體識別任務難度更大。提出了一個基于詞匯增強和表格填充的統一模型TLEXNER,該模型能夠同時處理上述任務。該模型首先針對中文語料分詞困難的問題,使用詞典適配器將詞匯信息融合到BERT預訓練模型,并且將字符與詞匯組的相對位置信息集成到BERT的嵌入層中;然后通過條件層歸一化和雙仿射模型構造并預測字符對表格,使用表格建模字符與字符之間的關系,得到平面實體與嵌套實體的統一表示;最后根據字符對表格上三角區域的數值判斷實體類別。提出的模型在平面實體的公開數據集Resume和自行標注的軍事領域嵌套實體數據集上F1分別是97.35%和91.96%,證明了TLEXNER模型的有效性。
中圖分類號:TP391 文獻標志碼:A DOI: 10.16157/j.issn.0258-7998.233939
中文引用格式: 褚天舒,唐球,梁軍學,等. 基于詞匯增強和表格填充的中文命名實體識別[J]. 電子技術應用,2024,50(2):23-29.
英文引用格式: Chu Tianshu,Tang Qiu,Liang Junxue,et al. Chinese named entity recognition based on lexicon enhancement and table filling[J]. Application of Electronic Technique,2024,50(2):23-29.
Chinese named entity recognition based on lexicon enhancement and table filling
Chu Tianshu1,Tang Qiu1,Liang Junxue2,Xu Rui1,Wang Mingyang2,Liu Tao2
1.National Computer System Engineering Research Institute of China, Beijing 100083, China; 2.People′s Liberation Army 93216, Beijing 100085, China
Abstract: Chinese named entity recognition has been involved with two tasks, including Chinese flat named entity recognition and Chinese nested named entity recognition. Chinese nested named entity recognition is more difficult. Therefore, this paper proposes a unified model, namely TLEXNER, based on lexicon enhancement and table filling, which can tackle the above two tasks concurrently. Aiming at the difficulty of Chinese word segmentation, the lexicon adapter is used to integrate the lexicon information into the BERT pre-training model,and integrates the relative position information of characters and lexical groups into the BERT embedding layer. Then conditional layer normalization and biaffine model is used to build and predict the representation of the character-pair table, and the relationship between character pairs is modeled by table structure to obtain the unified representation of flat entities and nested entities.
Key words : lexicon enhancement;Chinese named entity recognition;table filling

引言

在大數據時代,每天都產生海量的文本數據,如何從這些存在大量冗余的數據中獲取真正有價值的知識信息顯得愈發重要。使用知識抽取方法能夠自動識別并提取所需知識要素信息,為后續的知識融合、知識加工、知識應用提供數據支撐,其中命名實體識別是知識抽取的重要任務,也是知識圖譜、數據挖掘、智能檢索、問答系統等下游任務的基礎,命名實體識別技術的研究具有重要的理論需求與現實意義。

中文命名實體識別根據粒度劃分可分為基于詞的命名實體識別、基于字符的命名實體識別和基于字詞混合的命名實體識別。與英文命名實體識別相比,中文沒有明確的單詞分隔符號,因此,中文命名實體識別存在分詞困難的問題。


本文詳細內容請下載:

http://www.jysgc.com/resource/share/2000005850


作者信息:

褚天舒1,唐球1,梁軍學2,徐睿1,王明陽2,劉濤2

1.華北計算機系統工程研究所,北京 100083;2.中國人民解放軍93216部隊,北京 100085


weidian.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 国产精品第9页| 97人洗澡人人澡人人爽人人模| 东京一本一道一二三区| 99精品国产在热久久无码| 欧式午夜理伦三级在线观看| 精品熟女碰碰人人a久久| 欧美成人精品福利在线视频| 无限看片在线版免费视频大全| 在线观看国产福利| 国产午夜无码精品免费看动漫| 先锋影音男人资源| 久久国产高清字幕中文| 99久热re在线精品视频| 躁天天躁中文字幕在线| 欧美黑人bbbbbbbbb| 无码人妻精品一区二区三区9厂 | 在线天堂bt种子资源| 国产午夜影视大全免费观看| 亚洲经典在线中文字幕| 久久一区二区三区精品| 手机在线观看你懂的| 男攻在开会男受在桌子底下| 日本天堂在线视频| 国产精品无码一区二区三级| 兽皇videos极品另类| 久久婷婷是五月综合色狠狠| 97精品人妻系列无码人妻| 精品视频一区二区三三区四区| 最近免费中文字幕大全视频 | 久久久久综合一本久道| 88国产精品视频一区二区三区| 老熟妇乱子伦牲交视频| 欧美一级免费在线观看| 小小的日本电影在线观看免费版| 国产成人精品免高潮在线观看| 亚洲自偷自拍另类图片二区| 久久99精品久久久久久噜噜| 豆奶视频最新官网| 狠色狠色狠狠色综合久久| 日日插人人插天天插| 国产禁女女网站免费看|