《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于隱馬爾科夫模型的語義傾向性研究
基于隱馬爾科夫模型的語義傾向性研究
來源:微型機與應用2010年第17期
章棟兵,姚寒冰,顏 昕
(武漢理工大學 計算機學院,湖北 武漢 430063)
摘要: 以網絡評論為研究對象,試圖把隱馬爾科夫模型從已經成功應用的模式識別領域推廣到語義傾向性分析系統。與傳統傾向性識別系統不同的是,此理論通過建立隱馬爾科夫分類模型,將未知文本進行狀態序列化,得到文本中所有的詞語所對應的傾向性,然后選定多數詞的傾向性來作為文本的總體語義傾向。實驗表明,當訓練數據越全面、規模越大時,識別率越高。
Abstract:
Key words :

摘  要: 以網絡評論為研究對象,試圖把隱馬爾科夫模型從已經成功應用的模式識別領域推廣到語義傾向性分析系統。與傳統傾向性識別系統不同的是,此理論通過建立隱馬爾科夫分類模型,將未知文本進行狀態序列化,得到文本中所有的詞語所對應的傾向性,然后選定多數詞的傾向性來作為文本的總體語義傾向。實驗表明,當訓練數據越全面、規模越大時,識別率越高。
關鍵詞: 語義傾向性;隱馬爾科夫模型;序列化

    網絡媒體被公認為是繼報紙、廣播、電視之后的“第四媒體”,成為反映社會輿情的主要載體之一。人們希望能快速高效地在浩如煙海的網絡信息中提取對于諸如人物、事件、傳媒、產品等有價值的評價信息。如何有效地提取文本信息,推斷其語義傾向,已經成為當前自然語言與信息安全研究領域的熱點問題[1]。
    當前流行的語義傾向性分析系統可以分為兩個步驟:首先是識別詞匯的語義(短語)傾向性[2],然后利用不同的策略根據詞匯(短語)的傾向性給出整個文本的語義傾向評價。目前主要有三種研究思路:(1)對所有詞匯的傾向性評分進行統計求和,根據最終的得分正負來評價文本的傾向性[3]。(2)采用機器學習的方式根據詞匯的傾向性訓練出語義傾向分類器[4],這是目前比較流行的思路,總體效果比統計求和要好。這兩種思路是基于概率統計的,領域性限制小。(3)基于“格語法”分析的思路。該思路很難全面反應樣本空間規律,具有一定的領域限制性。
    本文利用隱馬爾科夫模型HMM(Hidden Markov Models)在文本處理方面的優勢,首先對其理論進行介紹,然后根據現有學者對HMM在文本分類中的應用和文本分類技術在傾向性分析中應用的研究結果,提出將HMM應用于文本傾向性研究的理論,并用實驗證明此理論的可行性。
1 理論基礎
1.1 隱馬爾科夫模型

    隱馬爾可夫模型[5]作為一種統計模型,非常適合處理時變信號,用于動態過程時間序列建模并具有強大的時序模式分類能力,理論上可處理任意長度的時序。HMM是一個雙重隨機過程,其中之一是Markov鏈,其基本隨機過程為描述狀態的轉移;另一個隨機過程描述狀態與觀察值之間的統計對應關系,只能看到觀察值,而不能看到狀態,即通過一個隨機過程去感知狀態的存在及其特性。
1.2 HMM在文本分類中的應用
    羅雙虎[6]把待分類文本描述成一系列狀態演化的隱Markov過程,其中狀態以特定的概率產生代表文本的特征項。用序列模式來描述文本類,文本序列通過與隱Markov模型的匹配,求出其對應狀態序列和最大輸出概率,以比較各個文本類的結果,達到文本分類的目的。
    龍麗君[7]對關鍵字所在的句子構成的詞序列建立HMM,以判斷句子所屬的類別。為了建立HMM,將詞語所屬的類別理解為狀態,將所選擇的關鍵字理解為輸出值。這樣就把要判定一個觀測序列(一個句子)的整體所屬的類別轉換為己知模型和觀測序列,求出全局最優的整體序列。觀測序列的整體所屬類別即為關鍵字所屬類別,或者說觀測序列的整體類別即為狀態序列中居多數的狀態對應的類別。
1.3 文本分類技術在傾向性分析中的應用
    1997年,Hatzivassiloglou和McKeown嘗試使用監督學習的方法對詞語進行語義傾向判別,通過對訓練語料的學習進行語義傾向判別,準確率約82%,在加入篇章中形容詞之間的接續信息后,準確率提升到約90%[2]。2003年,Turney在其論文[8]中提出了利用統計信息對單詞進行語義傾向判斷的新方法。文本的語義傾向判別也可被看作一個褒貶的分類問題,因此,文本分類中的方法同樣被應用到了語義傾向判別研究中。
2 HMM在語義傾向性研究的應用
    本文是針對網絡評論,判斷其表達的是支持(褒義)、反對(貶義)還是中立(中性)的語義傾向性。

    (4)A為狀態轉移概率矩陣,即從一種詞語類別轉移
2.2 實驗系統框架
    系統整體框架如圖1所示,整個系統分為訓練階段和識別階段。

2.2.1 語料庫準備
    訓練語料庫是國內還沒有公開的文本傾向語料庫。本實驗全部由人工收集,然后對所提取的所有的句子進行分詞、標注之后,去掉連詞、助詞和代詞等不具傾向性的無用詞,得到最終的語料庫。
    否定詞表:帶否定意義的詞,如:不、不是、非等。
2.2.2 訓練階段
    首先根據初始參數建立初始模型,然后使用Baum-Welch算法[5]對參數進行訓練,得出最終分類模型。
2.2.3 識別階段
    將未知評論文本經預處理得到字串(W1,W2,W3,…,Wn)作為上文中訓練得到的HMM分類模型的觀察序列,通過維特比(Viterbi)算法[5]得到最優狀態序列S,然后使用以下算法得出整個語句的語義傾向性,如圖2所示。

    Array<Word> W;//字串
    Array<State> S;//最優狀態序列
    Dictionary Deny;//否定詞表
    Integer Length;//字串長度,即字串中詞語的數目
    Procedure getOrientation ()
      //句子傾向性為狀態序列中具有傾向(非中立)的狀態占多數的狀態所對應的傾向
      //由于網絡評論中作者的傾向多數是在句首,取首個具有語義傾向的狀態對應的傾向為整個句子的語義傾向性
      Orientation orientation=“中性”;
      Integer numP=0;//S1(支持)的數量
      Integer numN=0;//S2(反對)的數量
      Orientation firstOrientation;//記錄句子中首個非中性的狀態
      For  i ← 0  to  Length-1  do
          If S[i]!=S3 then                
            If i>0 and W[i-1] ∈Deny then
              //此狀態不是句首且此狀態對應的觀察值是否定詞時
               //狀態類別以相反類別計數
              S[i]==S1?numN++;numP++;
          Else
              S[i]==S1?numP++;numN++;
          End If                
          If firstOrientation==NULL then
            firstOrientation =(S[i]== S1?“支持”:“反對”);
            End If
       End If
      Repeat
      If numP>numN then
        orientation=“支持”;
      Else If numP<numN then
        orientation=“反對”;
      Else
        orientation=firstOrientation;
      End If
    end getOrientation
2.3 應用舉例
    例句:“我同意你的觀點”。
    經分詞結果為:“我/r 同意/v 你/r 的/u 觀點/n”。去除無用詞得到觀察值序列為:“同意/v 觀點/n,最后經過識別得出最優狀態序列為:S1,S3。由于S1出現1次,而沒有出現S2,故這個句子的傾向性為S1的傾向類別:支持。
3 實驗結果及分析
    實驗文本是來自不同網站上下載的各種評論共2 000條,所有的評論都經過分詞、標注和去無用詞處理,然后手工分為:支持(褒義)、反對(貶義)和中立(中性)3個類別。然后在每個類別中分別取200、300、400、500條,共600、900、1 200、1 500條作為本實驗的訓練數據,進行封閉測試并對剩余的評論進行開放測試。實驗結果如表1、表2所示。

    從表中結果可以看出,封閉測試可以達到很高的識別率,可見訓練語料庫的規模將直接影響分析結果。當語料更全面、覆蓋面更廣泛時,識別率將大大提高,因此建立一個良好的訓練語料庫的識別方法將有很好的應用前景。
    本文從單個句子出發,研究其傾向性分析方法,從實驗結果數據可以看出,此方法有很好的識別率,但需面對兩個問題:(1)網絡文本的復雜性:如語句的語氣、具有傾向性的詞語所針對不同的評價對象和網絡新詞的頻繁出現等情況;(2)語料庫的整理:語料庫的完整性和準確性將直接影響分析方法的準確率,而國內還沒有公開的文本傾向語料庫。這些問題將做進一步地研究和改進。
參考文獻
[1] 來火堯,
劉功申.基于主題相關性分析的文本傾向性研究[J].信息安全與通信保密,2009(3):77-78.
[2] HATZIVASSILOGLOU V, MEKEOWN K R. Predicting the semantic orientation of adjectives[A]. In: Proceedings of the 35th Annual Meeting of the Association for Computational Liguistics and the 8th Conference of the European Chapter of the ACL, 1997:174-181.
[3] PETER T. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[A]. In: Proceedings of the 40th Annual Meeting of the Association for Computational Liguistics, 2002.
[4] 徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識別機制[J].中文信息學報,2007,21(01):98-102.
[5] 宗成慶.統計自然語言處理[M].北京:清華大學出版社,2008.
[6] 羅雙虎,歐陽為民.基于隱Markov模型的文本分類[J].計算機工程與應用,2007,43(30):179-181.
[7] 龍麗君.網絡內容監管系統中基于局部信息的語義傾向性識別算法[D].南京.南京理工大學,2004.
[8] PETER T,MICHAEL L. Measuring praise and criticism: Inference of semantic orientation from association[J]. ACM Transactions on Information Systems, 2003,21(4):315-346.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美性猛交xxxx免费看久久久 | 亚洲人成网站777色婷婷| 亚洲一区二区三区四区五区午夜 | 亚洲网站在线播放| 日韩视频免费观看高清完整版| 亚洲国产mv| 久久精品国产一区二区三区| 欧美一级久久久久久久大片| 欧美一区二区成人| 欧美亚洲免费高清在线观看| 午夜精品久久久久久久99水蜜桃| 亚洲午夜精品视频| 亚洲欧美日韩天堂一区二区| 亚洲欧美一区二区精品久久久| 亚洲午夜精品| 午夜久久tv| 久久精品一区四区| 91久久久久| 亚洲美女精品一区| 一区二区91| 亚洲免费在线视频| 性欧美xxxx视频在线观看| 欧美一区二区三区啪啪| 久久精品国产一区二区三区免费看| 久久国产日韩欧美| 久久综合电影| 欧美久久影院| 国产精品福利久久久| 国产酒店精品激情| 狠狠狠色丁香婷婷综合激情| 亚洲国产精品va| 一区二区三区国产| 香蕉久久精品日日躁夜夜躁| 久久成人免费网| 亚洲免费成人av| 亚洲男人的天堂在线观看| 性欧美xxxx大乳国产app| 久久久综合网站| 欧美国产欧美亚州国产日韩mv天天看完整| 欧美日本精品一区二区三区| 欧美午夜不卡视频| 国产一级揄自揄精品视频| 亚洲大胆人体视频| 一本色道久久综合精品竹菊| 亚洲欧美自拍偷拍| 亚洲激情在线观看| 亚洲欧美变态国产另类| 久久九九电影| 欧美极品在线视频| 国产精品五月天| 亚洲国产欧美不卡在线观看| 这里只有精品丝袜| 久久国产一区二区| 一区二区三区视频在线看| 欧美一级片久久久久久久 | 欧美不卡一卡二卡免费版| 欧美屁股在线| 国产精品爽爽ⅴa在线观看| 激情久久久久久久| 一区二区三区视频在线 | 美女图片一区二区| 欧美视频一区二区三区| 黑人一区二区| 一本一本久久a久久精品综合妖精 一本一本久久a久久精品综合麻豆 | 欧美三级视频在线观看| 国产色婷婷国产综合在线理论片a| 亚洲成人中文| 亚洲欧美怡红院| 一区二区三区高清在线| 久久人人97超碰人人澡爱香蕉 | 国产精品av久久久久久麻豆网| 国产综合香蕉五月婷在线| 99精品欧美一区二区蜜桃免费| 久久婷婷国产综合国色天香| 国外视频精品毛片| 欧美在线www| 夜夜爽av福利精品导航| 久久精品麻豆| 亚洲精品在线观看免费| 欧美在线免费视屏| 久久在线91| 亚洲免费一区二区| 欧美一级在线播放| 欧美风情在线观看| 国产欧美日韩视频一区二区| 亚洲福利视频三区| 欧美一区二区黄色| 国产精品99久久久久久宅男| 久久综合国产精品| 国产精品视频你懂的| 亚洲理论电影网| 亚洲高清视频在线| 欧美资源在线| 欧美日一区二区三区在线观看国产免| 国内不卡一区二区三区| 中文高清一区| 日韩午夜免费视频| 麻豆精品在线播放| 黑人操亚洲美女惩罚| 香蕉乱码成人久久天堂爱免费 | 亚洲激情影院| 久久婷婷影院| 国产日产精品一区二区三区四区的观看方式 | 亚洲一区二区成人| 亚洲伊人久久综合| 欧美精品一区二区三区四区| **性色生活片久久毛片| 欧美一区二区三区免费视频| 欧美一区二区三区视频在线| 国产精品成人va在线观看| 日韩视频久久| 妖精成人www高清在线观看| 欧美粗暴jizz性欧美20| 在线激情影院一区| 亚洲高清不卡在线观看| 久久久精品五月天| 国产亚洲福利社区一区| 午夜精品视频在线观看| 新狼窝色av性久久久久久| 国产精品美女久久久久久久| 一区二区免费在线观看| 国产精品99久久久久久久vr| 欧美精品久久久久久久免费观看| 亚洲国产高清视频| 亚洲精品国产精品国产自| 欧美高清视频www夜色资源网| 1000精品久久久久久久久| 亚洲欧洲日产国产综合网| 久久综合中文字幕| 136国产福利精品导航| 亚洲精品一区二区三区av| 欧美高清视频免费观看| 亚洲日本精品国产第一区| 欧美一区二区观看视频| 欧美亚洲一区二区三区| 欧美日韩中文字幕在线| 一区二区高清视频在线观看| 亚洲一区二区在线播放| 国产精品久久亚洲7777| 新片速递亚洲合集欧美合集| 久久精品视频免费观看| 好吊一区二区三区| 欧美久久影院| 在线看片日韩| 亚洲激情视频在线播放| 欧美—级a级欧美特级ar全黄| 亚洲美女av网站| 亚洲天堂第二页| 国产精品天天摸av网| 欧美一区观看| 欧美xart系列高清| 99国产精品久久久| 欧美一区二区黄色| 狠狠久久亚洲欧美| 99国产精品视频免费观看一公开 | 91久久嫩草影院一区二区| 一本色道久久综合亚洲91| 国产精品福利av| 欧美专区在线| 欧美精品乱码久久久久久按摩| 9色精品在线| 久久成人这里只有精品| 在线观看国产成人av片| 亚洲视频在线视频| 国产午夜精品美女视频明星a级| 亚洲人成人一区二区在线观看| 欧美视频在线一区二区三区| 香蕉久久夜色| 欧美激情性爽国产精品17p| 亚洲视频自拍偷拍| 久久久青草青青国产亚洲免观| 亚洲狼人综合| 久久手机免费观看| 99精品欧美一区| 久久一二三国产| 一区二区三区精品| 久久综合国产精品| 一区二区三区色| 麻豆成人综合网| 亚洲一区二区三区成人在线视频精品| 可以看av的网站久久看| 亚洲天堂免费观看| 欧美高清视频| 欧美一区二区三区在线免费观看| 欧美理论在线播放| 欧美在线观看天堂一区二区三区| 欧美日韩国产成人高清视频| 欧美自拍偷拍| 国产精品久久久久久久久久久久久久| 亚洲高清一区二区三区| 国产精品久久久免费| 日韩一级欧洲| 一区二区视频欧美| 欧美一区二区高清| 99精品99| 欧美成人情趣视频| 欧美一区二区在线视频| 国产精品美女999| 亚洲无线观看| 亚洲国产欧美精品|