中文字幕精品三区,欧美天堂一区二区,欧美视频官网

情感傾向分析在輿情監(jiān)控方面的研究

2017年微型機與應(yīng)用第5期

王林,李昀澤

西安理工大學(xué) 自動化與信息工程學(xué)院，陜西西安 710048

摘要： 針對Hownet經(jīng)典算法的應(yīng)用只是側(cè)重于詞句優(yōu)化方面的研究，忽視了因不同人群層次主觀色彩偏差而造成的判別準(zhǔn)確性下降問題，文章提出了一種優(yōu)化Hownet判別方法。搭建閾值確定的新框架，并利用義源信息量衍生義項的方法動態(tài)更新情感詞庫，一方面考慮到不同人群主觀色彩對傾向分析產(chǎn)生的影響問題，另一方面針對某一事件或話題直接得出大眾情感傾向。實驗表明，相較傳統(tǒng)的Hownet方法而言，優(yōu)化后的Hownet實現(xiàn)了對輿情傾向分析的跨人群分析，且有更高的準(zhǔn)確性。

關(guān)鍵詞： 義源信息量衍生義項 Hownet算法傾向性分析

Abstract：

Key words :

　　王林,李昀澤

　　（西安理工大學(xué) 自動化與信息工程學(xué)院，陜西西安 710048）

摘要：針對Hownet經(jīng)典算法的應(yīng)用只是側(cè)重于詞句優(yōu)化方面的研究，忽視了因不同人群層次主觀色彩偏差而造成的判別準(zhǔn)確性下降問題，文章提出了一種優(yōu)化Hownet判別方法。搭建閾值確定的新框架，并利用義源信息量衍生義項的方法動態(tài)更新情感詞庫，一方面考慮到不同人群主觀色彩對傾向分析產(chǎn)生的影響問題，另一方面針對某一事件或話題直接得出大眾情感傾向。實驗表明，相較傳統(tǒng)的Hownet方法而言，優(yōu)化后的Hownet實現(xiàn)了對輿情傾向分析的跨人群分析，且有更高的準(zhǔn)確性。

　　關(guān)鍵詞：義源信息量;衍生義項;Hownet算法;傾向性分析

　　中圖分類號：TN929.12文獻(xiàn)標(biāo)識碼：ADOI： 10.19358/j.issn.1674-7720.2017.05.004

　　引用格式：王林,李昀澤.情感傾向分析在輿情監(jiān)控方面的研究［J］.微型機與應(yīng)用，2017,36（5）：11-13，17.

0引言

　　在輿情媒體規(guī)模、媒體種類等發(fā)展迅猛的情況下，輿情監(jiān)測顯得愈發(fā)重要，其中人群傾向性偏差問題尤為受到關(guān)注。研究不同領(lǐng)域的人群情感傾向偏差問題，是解決輿情人群主觀色彩差異的重點［1］，也可為眾多輿情分析平臺提供幫助，并可為政府監(jiān)管系統(tǒng)對輿情的整體走勢和褒貶判斷提供重要依據(jù)。

　　針對主觀色彩偏差問題，近年來研究者提出的解決方案主要有細(xì)粒度分析法［2］、挖掘新模式二次調(diào)用［3］、情感詞典邏輯結(jié)合［4］等方法。由于Hownet方法重點在于優(yōu)化情感詞庫和解決詞句［5］問題，所以利用Hownet解決主觀情感差異并不常見。呂韶華等人［6］基于SimRank的跨領(lǐng)域情感傾向性分析算法構(gòu)建潛在空間向量，實現(xiàn)了領(lǐng)域分類，但僅限于分類階段。YZERBYT V等人［7］提出分類識別行動傾向，引入傳播動力學(xué)，但只側(cè)重于傳播方式研究。魏現(xiàn)輝［8］提出了一種基于加權(quán)SimRank的分析模型，實現(xiàn)了跨領(lǐng)域情感分類，但傾向性分析結(jié)果準(zhǔn)確性不高。張瑩［9］提出基于異構(gòu)信息源和邏輯斯諦回歸模型進(jìn)行情緒預(yù)測的方法，該方法是解決跨領(lǐng)域跨人群問題的一大突破，但是步驟過于繁瑣。馬鳳閘［10］將經(jīng)典遷移學(xué)習(xí)TrAdaBoost算法的樣本遷移機制應(yīng)用于情感傾向性分析，為跨領(lǐng)域分析做出了重大貢獻(xiàn)，但精確度有待提高。孟佳娜等人［11］提出歸納式遷移學(xué)習(xí)，通過領(lǐng)域采集的關(guān)聯(lián)問題解決了情感色彩的不同影響，但是側(cè)重于領(lǐng)域采集研究而非傾向結(jié)果判斷。由此可知，跨領(lǐng)域研究既要解決不同人群傾向差異，又要提高總體分析的準(zhǔn)確度，利用機器學(xué)習(xí)或數(shù)據(jù)挖掘［1215］的方法不僅步驟繁瑣，而且對整體分析結(jié)果的準(zhǔn)確性影響很大。

　　本文提出一種優(yōu)化Hownet算法，該方法通過計算不同的評論文本的正傾向和負(fù)傾向的加權(quán)平均值，并利用二次分類方法確定正負(fù)傾向的單一閾值，二次分類結(jié)合單邊帶［5］和向量機分類［16］的優(yōu)點，對主題和情感進(jìn)行再分類［18］，達(dá)到減少主觀情感影響的目的。并采用義源衍生義項方法［2，5，1618］對Hownet詞典庫進(jìn)行實時更新，達(dá)到區(qū)分人群的目的，最后利用Hownet算法與優(yōu)化后的閾值進(jìn)行對比運算。本文將針對詞句分析的Hownet算法應(yīng)用到分析人群主觀色彩偏差上，通過對閾值的優(yōu)化達(dá)到減少人群情感偏差影響的目的，大幅減小各類不同情感色彩帶來的影響，也能有效解決跨領(lǐng)域、跨人群的主觀表達(dá)問題。該優(yōu)化方法也可直接針對某一話題或事件得出傾向性分析結(jié)果并提高了判斷的準(zhǔn)確性。

1相關(guān)算法描述

　　1.1存在的問題和解決目標(biāo)

　　人群傾向偏差不是片面的一詞多義，也不局限于簡單的褒貶相反，而是個人主觀色彩的不同。所以要從根源上對主觀色彩進(jìn)行區(qū)分，就要對人群進(jìn)行區(qū)分，建立區(qū)分的方法。

　　1.2Hownet算法優(yōu)勢

　　（1） Hownet是自然語言處理系統(tǒng),解釋概念間的關(guān)系與屬性，有強大的動態(tài)詞典數(shù)據(jù)庫；

　　（2）以網(wǎng)狀結(jié)構(gòu)反映整體與部分的關(guān)系；

　　（3）經(jīng)典Hownet算法如下；

　　Orient=∑pwsim(pword,word)－∑nwsim(nword,word)(1)

　　其中,Orient為最終閾值，pword與nword分別為褒義詞結(jié)果集和貶義詞結(jié)果集。該方法方便理解，易于操作，詞典庫可動態(tài)更新。

2動態(tài)更新詞典庫

　　2.1主題提取

　　詞匯信息量基本公式：

　　 LX$95G]Y_@88(IR]TGDKU3F.png

　　其中p代表義原詞匯，C(p)代表詞匯p的信息量,H(p)表示詞匯p出現(xiàn)的數(shù)量，max 表示在語義詞庫中的總數(shù)。

　　2.2主題分類

　　單邊帶分類是對于不同義原詞匯進(jìn)行分類，其基本公式為：

　　 H@@I[9U]]C81W7M[D~[}5)D.png

　　其中n代表某個義項，即某種衍生意。假設(shè)p1有n1個義原，p2有n2個義原。c1與c2是記錄下的n1與n2的數(shù)目，再計算相似度。

　　2.3人群分類

　　利用前兩部分實現(xiàn)人群細(xì)分，即不用主動去分類人群，而是對不同義項進(jìn)行分類：

　　假設(shè)某語句w1有s1個義項，w2有s2個義項，則w1與w2的相似度為：

　　 ~7C2NQ%WA$TN$1K%8767@UK.png

　　2.4加權(quán)平均

　　最終進(jìn)行正負(fù)閾值的加權(quán)平均，得到在不同人群基礎(chǔ)上的結(jié)果：

　　pword：積極詞集合，nwords消極詞集合

　　Orient(word) >&（閾值）輿論積極

　　Orient(word) <& (閾值）輿論消極

3Hownet閾值優(yōu)化模型

　　3.1優(yōu)化步驟

　　(1)根據(jù)TF/IDF權(quán)值法計算提煉主題，而不直接歸類其情感傾向,且同步利用式(1)對此情感庫進(jìn)行更新，避免了中文表達(dá)復(fù)雜帶來的情感傾向誤判：

　　 )H(JD950KIUXJ[9(]_8FHB4.png

　　其中，N表示文本集中的文本數(shù)量，n表示文本集中包含目標(biāo)項的文本數(shù)量，f表示目標(biāo)項出現(xiàn)的頻數(shù)。

　　可以看出，如果某個詞在某篇文檔出現(xiàn)的頻率高，而在其他文檔中出現(xiàn)的頻率低，說明該詞對該文檔而言，具有更高的代表性，同時也應(yīng)有更高的權(quán)重值。

　　（2）先以向量空間模型歸類主題的相似性,再以singlepass算法判斷主題情感相似性,避免了因不同篇章的情感色彩強烈而帶來的誤判，向量空間模型算法基本公式為：

　　 F]3T}4E@N5G~E(Y)1`Q_WR4.png

　　其中di、dj代表兩個文本的sim相似度，wk代表目標(biāo)項的權(quán)重值。此步驟與式(3)、(4)算法同時進(jìn)行，目的在于對詞庫進(jìn)行義項衍生分類，在分類基礎(chǔ)上進(jìn)行第二步歸類。

　　（3）以singlepass算法判斷主題情感相似性，如果該新聞報道S是輸入的第一篇報道，則將該報道當(dāng)做第一個話題。后續(xù)輸入的新聞報道內(nèi)容向量與己有的話題內(nèi)容向量進(jìn)行比較用兩個向量之間的余弦夾角sim(di,dj)作為衡量相似度的標(biāo)準(zhǔn)，如果其值小于設(shè)定的閾值，則認(rèn)為新輸入的新聞報道屬于該話題，否則將該新聞報道作為一個新的話題。

　　3.2原理總結(jié)

　　由上面步驟可知：因中文表達(dá)中，不同句式（反問句、否定句）褒貶相反，所以采用二次分類法，對單一的向量分類或算法分類組合使用，取各自優(yōu)點。向量空間模型通過權(quán)值歸類主題，與TF一樣避開了情感部分，主題相似的wkj與wki的取值需通過單邊的情感分類，旨在確定是褒義值@+與貶義值@-，再界定中性范圍，計算加權(quán)平均值@：

　　 $([$M{$JK1V(RJF2]V_Y%~X9.png$

4試驗結(jié)果與分析

　　實驗?zāi)康脑谟隍炞C優(yōu)化的Hownet方法傾向性分析模塊是否實現(xiàn)了互聯(lián)網(wǎng)信傾向性分析功能，且與傳統(tǒng)方式進(jìn)行比較，驗證其優(yōu)點。

　　4.1輿情走勢分析情感統(tǒng)計

　　本文以2016年7月17日~7月19日連續(xù)兩天的輿情走勢為樣本，以某個搜索引擎、新聞網(wǎng)站、論壇、微博、微信等平臺為目標(biāo)，得出正面、負(fù)面和中性的文本數(shù)量。

　　4.2傾向性結(jié)果展示

　　隨著詞典庫的不斷更新，該話題輿情呈現(xiàn)出細(xì)分的趨勢，結(jié)果顯示出更新詞典庫的突出效果，通過對正負(fù)面程度的統(tǒng)計可以判斷輿情的正確走勢，如圖1所示。

　　圖1為輿情分析走勢圖，圖中可看出中性情感最為突出且走勢明顯，可判斷輿情發(fā)展主要由中性情感決定并且呈現(xiàn)出下降趨勢。

　　4.3結(jié)果分析

　　4.3.1評價指標(biāo)

　　本文分類評價指標(biāo)包括查準(zhǔn)率、查全率和F1值。

　　4.3.2算法參數(shù)選取

　　（1)優(yōu)化步驟首先利用式(2)對詞典進(jìn)行初步主題統(tǒng)計，在此基礎(chǔ)上利用式(5)進(jìn)行文本分類，初始值f的頻率可選，先用擬固定值f=0.5。

　　（2）c1與c2是記錄下的n1與n2的數(shù)目，式(3)在c1與c2選取上初始值規(guī)定為c1=20和c2=30，此數(shù)據(jù)會根據(jù)后面步驟實時更新增長。

　　(3）利用向量機和單邊帶算法統(tǒng)計情感分類，式(6)是建立在式(3)、(4)基礎(chǔ)上的，對單邊情感分類，隨機地抽取出正負(fù)面的感情色彩文本各 500 篇，其中正面被正確識別出來的數(shù)量為 400 篇，負(fù)面被識別出來的數(shù)量為 435篇。

　　（4）為了使更新詞典庫的義項分類與前三步模式更加緊密結(jié)合，對閾值的確定就尤為重要，初始@=1.87，第一次取400個正面的@+=0.81，435個負(fù)面@-=0.78。利用式(7)可以計算出@的加權(quán)平均值為1.122，該值小于初值，可判斷走勢下降。

　　4.3.3對比試驗

　　本文利用4個評價指標(biāo)對閾值進(jìn)行設(shè)定，確定初始閾值@+與@-，再利用式(7)確定最終閾值，分別對傳統(tǒng)方法與優(yōu)化方法的閾值進(jìn)行計算，得出正負(fù)面文本的查準(zhǔn)率、查全率和F1值。

　　從表2可以看出，優(yōu)化后的P值、R值、F值都明顯高于傳統(tǒng)方法。

　　圖2為優(yōu)化方式與傳統(tǒng)方式對比圖，可更清晰地說明問題：實線、點線和虛線分別代表正面、負(fù)面及平均值。由圖2可以看出,優(yōu)化模式（左半部）線條值都普遍高于傳統(tǒng)模式（右半部）線條值，其原因在于對文本分類的文章，在Hownet判別時已經(jīng)用衍生義項原理實現(xiàn)了潛在的人群分類，所以基于最終的優(yōu)化閾值進(jìn)行判別時，很大程度上降低了人群情感色彩偏差帶來的影響。

5結(jié)束語

　　本文采取優(yōu)化Hownet分析方法，對某一話題在不同領(lǐng)域或不同平臺進(jìn)行傾向性分析，通過對閾值的優(yōu)化界定并與傳統(tǒng)模式相對比，驗證其優(yōu)化效果。優(yōu)化模式合理地結(jié)合了權(quán)值提煉與機器學(xué)習(xí)分類方法，通過采用義源衍生義項的分類方法實現(xiàn)人群分類的目的，在此基礎(chǔ)上優(yōu)化的閾值不僅大幅削弱了不同人群層次的情感偏差影響，而且使得分析結(jié)果更加可靠，具有更高的參考價值，且對輿情總體趨勢的情感傾向分析更加有利。

參考文獻(xiàn)

　　［1］ YZERBYT V, DUMONT M, WIGBOLDUS D.The impact british of categorization emotions and action tendencies［J］.Journal of Social onWiley Online Library,2013,23(8):62-66.

　　［2］劉龍飛，楊亮，張紹武，等.基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析［J］. 中文信息學(xué)報，2015,29(6):159-165.

　　［3］黃高峰，周學(xué)廣.一種語句級細(xì)粒度情感傾向性分析算法研究［J］. 計算機應(yīng)用與軟件， 2015,32(4):239-242.

　　［4］ YARDI S, BOYD D.Dynamic debates: an analysis of group polarization over time on twitter［J］. Bulletin of Science, Technology & Society, 2010,69(6): 066133.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容