《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 一種面向微博文本的命名實(shí)體識(shí)別方法
一種面向微博文本的命名實(shí)體識(shí)別方法
2018年電子技術(shù)應(yīng)用第1期
李 剛,黃永峰
清華大學(xué) 電子工程系NGN實(shí)驗(yàn)室,北京100084
摘要: 命名實(shí)體識(shí)別是自然語(yǔ)言處理領(lǐng)域的一項(xiàng)基礎(chǔ)性技術(shù)。近年來微博等網(wǎng)絡(luò)社交平臺(tái)發(fā)展迅速,其獨(dú)特的形式對(duì)傳統(tǒng)的命名實(shí)體識(shí)別技術(shù)提出了新的挑戰(zhàn)。故提出一種基于條件隨機(jī)場(chǎng)模型的改進(jìn)方法,針對(duì)微博文本短小、語(yǔ)義含糊等特點(diǎn),引入外部數(shù)據(jù)源提取主題特征和詞向量特征來訓(xùn)練模型,針對(duì)微博數(shù)據(jù)規(guī)模大、人工標(biāo)準(zhǔn)化處理代價(jià)大的特點(diǎn),采取一種基于最小置信度的主動(dòng)學(xué)習(xí)算法,以較小的人工代價(jià)強(qiáng)化模型的訓(xùn)練效果。在新浪微博數(shù)據(jù)集上的實(shí)驗(yàn)證明,該方法與傳統(tǒng)的條件隨機(jī)場(chǎng)方法相比F值提高了4.54%。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.179024
中文引用格式: 李剛,黃永峰. 一種面向微博文本的命名實(shí)體識(shí)別方法[J].電子技術(shù)應(yīng)用,2018,44(1):118-120,124.
英文引用格式: Li Gang,Huang Yongfeng. An approach to named entity recognition towards micro-blog[J]. Application of Electronic Technique,2018,44(1):118-120,124.

An approach to named entity recognition towards micro-blog
Li Gang,Huang Yongfeng
NGN Laboratory,Department of Electronics Engineering,Tsinghua University,Beijing 100084,China
Abstract: Named entity recognition is a fundamental technology in natural language processing(NLP). In recent years, rapid development of social network platforms such as microblog presents new challenges to the traditional named entity recognition(NER) technology because of the unique form. In this paper, an improved method based on the conditional random field(CRF) model is proposed for microblog texts. Due to the short texts and semantic ambiguity, external data resources are introduced to generate the topic feature and word representation feature for training the model. Due to the large-scale of microblog data and the high cost of manual standardization, an active learning algorithm based on least confidence is adopted to enhance the training effect at a lower cost of labor. Experiments on a Sina weibo data set show that this method improves the F-score by 4.54% compared to the traditional CRF methods.
Key words : named entity recognition;micro-blog;conditional random field;word representation;active learning

0 引言

    命名實(shí)體識(shí)別(Named Entity Recognition)是指識(shí)別文本中的各種實(shí)體,如人名、地名、機(jī)構(gòu)名或其他特有標(biāo)識(shí)[1],是自然語(yǔ)言處理(Natural Language Processing,NLP)中非常重要的一項(xiàng)基礎(chǔ)性技術(shù)。近年來,Twitter、新浪微博等新型社交平臺(tái)發(fā)展迅速,成為命名實(shí)體識(shí)別的新方向。RITTER A[2]等人設(shè)計(jì)了一個(gè)應(yīng)用于Twitter上的T-NER系統(tǒng),重構(gòu)了命名實(shí)體識(shí)別的流程。TURIAN J等人[3]利用半監(jiān)督的系統(tǒng)進(jìn)行命名實(shí)體識(shí)別,大大減少了識(shí)別的成本。Liu Xiaohua等人[4]在一個(gè)半監(jiān)督的框架下把K近鄰分類器和CRF模型結(jié)合起來,識(shí)別Twitter中的命名實(shí)體,取得了較好的效果。

    上述工作都是基于Twitter的,沒有考慮中文的深層語(yǔ)義,且多使用有限自建數(shù)據(jù)集,沒有考慮人工標(biāo)記的代價(jià)和不足,因此需要加以改進(jìn)。本文研究面向中文微博的命名實(shí)體識(shí)別,將識(shí)別視為一個(gè)序列標(biāo)注問題,通過改進(jìn)的基于概率模型的算法優(yōu)化識(shí)別效果。針對(duì)微博文本短小、信息量少和文體不正規(guī)、語(yǔ)意含糊的特點(diǎn),引入外部數(shù)據(jù)源提取深層語(yǔ)義特征;針對(duì)微博數(shù)據(jù)集人工處理代價(jià)大的問題,引入主動(dòng)學(xué)習(xí)算法,以較小的人工代價(jià)獲得識(shí)別效果的提升。

1 面向微博的命名實(shí)體識(shí)別方法

    參照CoNLL2003的標(biāo)準(zhǔn),給定一條微博,需要識(shí)別出其中的人名、地名、機(jī)構(gòu)名和其他實(shí)體共4類命名實(shí)體[5]

    研究的基礎(chǔ)模型采用了CRF[6]模型。

1.1 特征選取

    基礎(chǔ)特征采用當(dāng)前詞和前后位置詞的詞型和詞性特征,這也是大多數(shù)CRF模型會(huì)采用的特征。由此生成的模型作為基礎(chǔ)模型,對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果作為基線。

1.1.1 主題特征

    (Latent Dirichlet Allocation,LDA)模型[7]是一種無(wú)監(jiān)督的概率主題模型。每個(gè)主題下都分布著出現(xiàn)概率較高的詞語(yǔ),這些詞都與這個(gè)主題有很強(qiáng)的相關(guān)性,利用這種相關(guān)性能在一定程度上解決一詞多義、同義詞等問題。模型的訓(xùn)練使用了外部數(shù)據(jù)源,主題個(gè)數(shù)k可以事先指定。

    獲得LDA模型后,對(duì)于給定k個(gè)主題,通過p(w|t),將每個(gè)主題視為一個(gè)特征,將訓(xùn)練集中的每個(gè)詞看作是由k個(gè)特征表示的K維向量,則每個(gè)詞都可以表示成一個(gè)k維向量,即:

    jsj3-gs1.gif

其中,vi表示第i個(gè)詞的向量,λk表示該詞在第k個(gè)主題上的權(quán)重,N是詞表的大小。

1.1.2 詞向量特征

    詞向量源于HINTON G E[8]提出的Distributed Representation。一個(gè)流行的詞向量訓(xùn)練工具是word2vec,由MIKOLOV T[9]于2013年提出。word2vec能把詞映射到d維的向量空間,用向量空間的相似度表示文本語(yǔ)義上的相似度,有利于解決微博語(yǔ)義含糊的問題。

    詞向量一般有200~500維,如果直接將詞向量作為特征引入CRF模型,則計(jì)算量過大。這里需要利用的是其相似性,因此可以用聚類的方法進(jìn)行簡(jiǎn)化。實(shí)驗(yàn)中選擇將詞語(yǔ)表示為200~500維的詞向量,再利用k-means進(jìn)行聚類,將類別作為特征輸入模型。特別需要指出的是,相比采用單一的聚類結(jié)果,更好的辦法是多層聚類(multi-layer cluster)。

jsj3-gs2.gif

1.2 模型強(qiáng)化

    人工處理微博語(yǔ)料人工處理代價(jià)高昂,為了以最小的人工代價(jià)獲得最大的系統(tǒng)性能提升,研究采用了主動(dòng)學(xué)習(xí)算法。主動(dòng)學(xué)習(xí)算法包含兩部分,一個(gè)是分類器,另一個(gè)是抽樣策略[10]。分類器采用前文所述的改進(jìn)型CRF模型。抽樣策略可采用如下方法。

    抽樣不確定度是一中常見的衡量樣本信息含量的方法,在序列標(biāo)注模型中,可以根據(jù)最小置信度(Least Confidence)φLC(x)來確定抽樣不確定度。

    jsj3-gs3.gif

其中,x表示一個(gè)樣本,y*是對(duì)應(yīng)概率最大的標(biāo)記。對(duì)于一個(gè)訓(xùn)練好的CRF模型,可以在對(duì)每條微博進(jìn)行標(biāo)記的同時(shí)輸出對(duì)應(yīng)概率P。現(xiàn)給出整個(gè)算法框架。

    算法1:基于置信度的主動(dòng)學(xué)習(xí)算法

    輸入:有標(biāo)記語(yǔ)料DL、未標(biāo)記語(yǔ)料DU

    輸出:分類器C

        用DL訓(xùn)練分類器C(CRF classifier)

        重復(fù):

jsj3-2-s1.gif

2 實(shí)驗(yàn)

    實(shí)驗(yàn)用到了3個(gè)數(shù)據(jù)集,分別是訓(xùn)練集、擴(kuò)展集和測(cè)試集。其中3 000條標(biāo)記語(yǔ)料作為訓(xùn)練集,2 000條標(biāo)記語(yǔ)料作為測(cè)試集。另外2 000條作為擴(kuò)展集用于主動(dòng)學(xué)習(xí),不需標(biāo)注。另有500萬(wàn)條經(jīng)過除重去噪的微博作為外部源,分別用于LDA模型訓(xùn)練和詞向量模型訓(xùn)練,供抽取外部特征使用。

2.1 評(píng)價(jià)標(biāo)準(zhǔn)

    本文采用的評(píng)價(jià)標(biāo)準(zhǔn)包括準(zhǔn)確率P(Precision)、召回率R(Recall)和F1值(F1-measure)3個(gè)指標(biāo)。F1是準(zhǔn)確率和召回率的調(diào)和平均值,是一個(gè)綜合性的指標(biāo)。

2.2 實(shí)驗(yàn)數(shù)據(jù)及分析

    (1)使用訓(xùn)練集提取基礎(chǔ)特征,建立基礎(chǔ)模型,在測(cè)試集上進(jìn)行評(píng)估。結(jié)果如表1所示。此結(jié)果將作為基線與后續(xù)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。

jsj3-b1.gif

    (2)引入外部特征進(jìn)行了多組實(shí)驗(yàn)。圖1左側(cè)是引入主題特征后的提升效果,雖然有效果但不明顯。圖1右側(cè)是將400維的詞向量進(jìn)行聚類后作為特征引入模型的效果。F1值在聚類個(gè)數(shù)為400時(shí)達(dá)到了63.96%,較基線有明顯提升。究其原因,主要是詞向量的分量中隱含了豐富的上下文語(yǔ)法和語(yǔ)義信息,而LDA模型內(nèi)部采用了詞袋模型,僅考慮了詞的共現(xiàn)關(guān)系而沒有考慮上下文關(guān)系,這樣簡(jiǎn)化了模型,但不可避免地帶來了信息的損失。

jsj3-t1.gif

    多層聚類的實(shí)驗(yàn)效果如圖2所示,每個(gè)維度下前4個(gè)柱圖表示單層聚類(分別是聚成200、300、400、500個(gè)類簇)時(shí)的效果,最后一個(gè)表示同時(shí)使用前4個(gè)聚類結(jié)果作為多層聚類時(shí)的效果,顯然效果比單層聚類更好。

jsj3-t2.gif

    同時(shí)將所有的外部特征添加到基礎(chǔ)模型進(jìn)行實(shí)驗(yàn),F(xiàn)1值提高到65.41%。

    (3)采用主動(dòng)學(xué)習(xí)的方法進(jìn)一步強(qiáng)化模型。提升效果如圖3所示。詳細(xì)的數(shù)據(jù)參見表2。曲線Model_ba表示僅用外部特征而不進(jìn)行主動(dòng)學(xué)習(xí)的模型效果。曲線Model_la表示把一次性把包括訓(xùn)練集DL和擴(kuò)展集DU在內(nèi)的所有語(yǔ)料都進(jìn)行標(biāo)記(label all)并用于模型訓(xùn)練。Model_al1、Model_al2和model_al3是使用主動(dòng)學(xué)習(xí)策略但閾值不同的模型。總體看,無(wú)論是取哪個(gè)閾值,相比不進(jìn)行主動(dòng)學(xué)習(xí),主動(dòng)學(xué)習(xí)都能提高F1值,且收斂速度很快。

jsj3-t3.gif

jsj3-b2.gif

    表2進(jìn)一步說明了主動(dòng)學(xué)習(xí)的優(yōu)點(diǎn)。Model_la需要標(biāo)記微博2 080條,約9萬(wàn)個(gè)詞,人工代價(jià)太大。相比之下,3個(gè)主動(dòng)學(xué)習(xí)模型能明顯降低人工標(biāo)記量。其中Model_al2比Model_al3的F1值要高0.25%,標(biāo)記量?jī)H提升了12.9%;而Model_al1與Model_al2相比,F(xiàn)1值僅提升了0.1%,但代價(jià)是標(biāo)記量提升了17%,且多迭代了兩次。綜合考慮,取Model_al2作為最終的實(shí)驗(yàn)結(jié)果。此時(shí)僅需標(biāo)記457條微博,約37 000個(gè)標(biāo)記,F(xiàn)1值達(dá)到67.23%,相較最初的模型提升4.54%。

3 結(jié)語(yǔ)

    本文提出了一種面向中文微博的命名實(shí)體識(shí)別方法,先引入外部特征訓(xùn)練CRF模型,再采用主動(dòng)學(xué)習(xí)算法強(qiáng)化訓(xùn)練結(jié)果。實(shí)際工作中發(fā)現(xiàn),中文分詞效果不佳影響了后續(xù)的工作,主動(dòng)學(xué)習(xí)仍然引入了二次標(biāo)記,不利于大規(guī)模的識(shí)別任務(wù)。這些都需要在以后的工作中加以改進(jìn)。

參考文獻(xiàn)

[1] NADEAU D,SEKINE S.A survey of named entity recognition and classification[J].Lingvisticae Investigationes,2007,30(1):3-26.

[2] RITTER A,CLARK S,ETZIONI O.Named entity recognition in tweets: an experimental study[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:1524-1534.

[3] TURIAN J,RATINOV L,BENGIO Y.Word representations:a simple and general method for semi-supervised learning[C].Proceedings of the 48th annual meeting of the association for computational linguistics.Association for Computational Linguistics,2010:384-394.

[4] Liu Xiaohua,Zhang Shaodian,Wei Furu,et al.Recognizing named entities in tweets[C].Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1. Association for Computational Linguistics,2011:359-367.

[5] TJONG KIM SANG E F,DE MEULDER F.Introduction to the CoNLL-2003 shared task:Language-independent named entity recognition[C].Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Vol-ume 4.Association for Computational Linguistics,2003:142-147.

[6] LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C].Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.,2001:282-289.

[7] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[8] HINTON G E.Learning distributed representations of concepts[C].Proceedings of the Eighth Annual Conference of the Cognitive Science Society,1986,1:12.

[9] MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of words and phrases and their compositionality[C].Advances in Neural Information Processing Systems,2013:3111-3119.

[10] WU Y,KOZINTSEV I,BOUGUET J Y,et al.Sampling strategies for active learning in personal photo retrieval[C].Multimedia and Expo,2006 IEEE International Conference on.IEEE,2006:529-532.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲国产一区在线| 欧美一区二区三区视频在线 | 国产一区三区三区| 欧美午夜电影在线观看| 欧美伦理影院| 欧美精品日日鲁夜夜添| 欧美刺激午夜性久久久久久久| 久久久女女女女999久久| 久久成人久久爱| 欧美一区二区三区在线免费观看| 午夜日韩视频| 欧美在线视频全部完| 欧美亚洲一区二区在线| 香蕉久久夜色精品国产使用方法 | 久久精品亚洲国产奇米99| 欧美一区=区| 香蕉精品999视频一区二区| 午夜免费电影一区在线观看| 翔田千里一区二区| 欧美一区二区三区成人| 久久se精品一区二区| 久久精品视频一| 米奇777在线欧美播放| 美女主播一区| 欧美日韩福利视频| 欧美亚一区二区| 国产精品视频内| 国内精品国产成人| 亚洲成人在线| 亚洲美女网站| 亚洲中午字幕| 亚洲电影免费观看高清完整版| 亚洲精品无人区| 亚洲深夜激情| 小嫩嫩精品导航| 久久婷婷综合激情| 欧美高清视频免费观看| 欧美日韩视频在线观看一区二区三区| 国产精品第一区| 国产综合色产| 亚洲欧洲综合另类| 亚洲午夜一区二区| 久久精品99国产精品酒店日本| 亚洲精品国产精品久久清纯直播| 国产精品99久久久久久久女警 | 久久久精品日韩| 欧美激情一二三区| 国产精品久久久久一区二区三区| 国产日产欧美精品| 亚洲成色精品| 亚洲视频免费观看| 久久精品国产亚洲a| 99re在线精品| 久久精品官网| 欧美人与禽猛交乱配| 国产美女精品| 亚洲国产精品日韩| 亚洲一区二区在线观看视频| 久久精品日产第一区二区三区| 一本久久综合亚洲鲁鲁五月天| 午夜一区二区三区在线观看| 美女91精品| 国产精品美腿一区在线看| 极品尤物久久久av免费看| 夜夜嗨av一区二区三区免费区| 香蕉久久夜色精品国产| 亚洲免费高清| 久久精品在线免费观看| 欧美日韩蜜桃| 国语自产在线不卡| 亚洲无吗在线| 亚洲精品欧美日韩专区| 欧美在线日韩在线| 欧美日本韩国| 永久免费精品影视网站| 亚洲综合不卡| 99视频+国产日韩欧美| 久久精品人人| 国产精品女同互慰在线看| 亚洲激情成人在线| 久久xxxx精品视频| 午夜视频久久久久久| 欧美理论电影网| 韩国美女久久| 午夜免费电影一区在线观看| 中日韩视频在线观看| 麻豆av福利av久久av| 国产精品羞羞答答| 中文一区字幕| 一二美女精品欧洲| 欧美黄色一级视频| 精品91视频| 欧美一区二区三区在线观看视频| 亚洲一区精品电影| 欧美精品久久一区| 亚洲高清成人| 亚洲国产精品高清久久久| 欧美一区免费| 国产精品素人视频| 中文精品在线| 亚洲一区二区三区四区五区黄| 欧美va天堂| 亚洲成人在线网站| 亚洲国内自拍| 蜜桃av噜噜一区二区三区| 狠狠色综合一区二区| 欧美影院精品一区| 久久国内精品视频| 国产精品综合网站| 午夜一区在线| 久久国产手机看片| 国产亚洲永久域名| 欧美亚洲综合网| 欧美在线免费视频| 国模一区二区三区| 亚洲高清免费| 免费成人黄色| 亚洲国产精品一区二区第一页 | 一个人看的www久久| 欧美精品成人一区二区在线观看| 尤物精品在线| 亚洲国产美女| 免费成人毛片| 亚洲欧洲日韩综合二区| 亚洲精品在线二区| 欧美日本国产一区| 艳妇臀荡乳欲伦亚洲一区| 亚洲一区二区三区成人在线视频精品| 欧美日韩色综合| 一区二区三区久久| 午夜精品视频一区| 国产欧美一区二区色老头 | 国产精品99久久久久久白浆小说| 欧美日韩一区二区视频在线观看| 日韩午夜在线播放| 亚洲在线国产日韩欧美| 国产毛片精品视频| 久久精品色图| 欧美国产亚洲视频| 一本不卡影院| 午夜天堂精品久久久久| 国产一区二区高清| 亚洲国产欧美久久| 欧美日韩岛国| 亚洲欧美日韩国产综合精品二区| 久久爱另类一区二区小说| 精品av久久久久电影| 亚洲乱码精品一二三四区日韩在线| 欧美激情精品久久久久久大尺度| 日韩亚洲国产精品| 欧美一区二区日韩| 亚洲二区三区四区| 亚洲深夜福利在线| 国产亚洲综合性久久久影院| 亚洲区中文字幕| 欧美视频福利| 欧美一乱一性一交一视频| 蜜桃av噜噜一区| 99精品热视频只有精品10| 久久国产精彩视频| 亚洲高清不卡av| 午夜亚洲视频| 亚洲国产精品成人综合色在线婷婷| 中文亚洲免费| 国产一区二区无遮挡| 日韩一级不卡| 国产欧美视频在线观看| 亚洲日本成人网| 国产精品爽黄69| 亚洲精品免费网站| 国产精品三上| 91久久精品国产91久久性色| 欧美肉体xxxx裸体137大胆| 性色av一区二区三区| 欧美电影在线免费观看网站| 亚洲专区一区二区三区| 免费视频久久| 亚洲欧美欧美一区二区三区| 免费久久99精品国产自| 亚洲视频福利| 欧美激情视频在线播放| 午夜在线视频观看日韩17c| 欧美日本视频在线| 亚洲电影在线看| 国产精品入口麻豆原神| 亚洲精品在线三区| 国产精品一区二区在线观看| 亚洲美女中文字幕| 国产婷婷色综合av蜜臀av| 在线亚洲成人| 亚洲国产美国国产综合一区二区| 午夜天堂精品久久久久| 亚洲精品自在久久| 老色批av在线精品| 亚洲欧美日韩在线不卡| 欧美日韩色一区| 亚洲伦理一区| 国内精品久久久久久影视8| 亚洲欧美日韩精品综合在线观看| 91久久久久久国产精品|