《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 設計應用 > 基于HybridDL模型的文本相似度檢測方法
基于HybridDL模型的文本相似度檢測方法
2020年電子技術應用第6期
肖 晗1,毛雪松1,朱澤德2
1.武漢科技大學 信息科學與工程學院,湖北 武漢430081; 2.中科院合肥技術創新工程院,安徽 合肥230031
摘要: 為了提高文本相似度檢測算法的準確度,提出一種結合潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)與Doc2Vec模型的文本相似度檢測方法,并把該算法得到的模型命名為HybridDL模型。該算法通過Doc2Vec對文檔訓練得到文檔向量,再利用LDA模型得到文檔主題與各個主題下特征詞出現的概率,對文檔中各主題及特征詞計算概率加權和,映射到Doc2Vec文檔向量中。實驗結果表明,新算法模型比傳統的Doc2Vec模型對相似文本的判斷更加敏感,在文本相似度檢測上具有更高的準確度。
中圖分類號: TN957.52;TP391.1
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.191257
中文引用格式: 肖晗,毛雪松,朱澤德. 基于HybridDL模型的文本相似度檢測方法[J].電子技術應用,2020,46(6):28-31,35.
英文引用格式: Xiao Han,Mao Xuesong,Zhu Zede. Text similarity detection method based on HybridDL model[J]. Application of Electronic Technique,2020,46(6):28-31,35.
Text similarity detection method based on HybridDL model
Xiao Han1,Mao Xuesong1,Zhu Zede2
1.School of Information Science and Engineering,Wuhan University of Science and Technology,Wuhan 430081,China; 2.Institute of Technology Innovation,Hefei Institutes of Physical Science,Chinese Academy of Sciences,Hefei 230031,China
Abstract: In order to improve the accuracy of text similarity detection algorithm, this paper proposes a text similarity detection method combining latent Dirichlet Allocation(LDA) and Doc2Vec model, and names the model obtained by the algorithm HybridDL model. This algorithm obtains the document vector through Doc2Vec training of the document, and then obtains the probability of the occurrence of the document topic and the feature words under each topic with the LDA model, calculates the probability weighted sum of each topic and feature words in the document, and maps them to the Doc2Vec document vector. Experimental results show that the new algorithm model is more sensitive to the judgment of similar text than the traditional Doc2Vec model, and has higher accuracy in the detection of text similarity.
Key words : Doc2Vec;latent Dirichlet allocation;text representation;text similarity

0 引言

    在當下這個信息時代,互聯網已經成為人們生活中不可或缺的一部分,在機器計算能力大幅度提高的同時,獲得的數據也呈爆炸式增長。文本數據作為數據中的重要組成部分,量大且關鍵。因此,從大量的文本數據中高效地提取出滿足人們需要的信息成為了當下的熱門話題。在自然語言處理領域,通過計算機處理文本數據時,由于語言的多樣性,相同的詞語在不同的句子或者語境中表達出來的意思可能會存在差異,導致計算機無法直接并準確地獲取文本特征[1]。所以,如何從語料中學習到好的文本表示,如何提升文本表示模型的性能,對于后續自然語言處理的相關研究,如機器翻譯、文本分類[2]、情感分析[3]、問答系統、文本檢索等,具有十分深遠的意義。

    建立文本表示模型包括對詞、主題、語句、文檔等各個級別任務進行建模。對于詞級別的文本表示模型,通常使用被稱作詞向量的數學表示方法來處理。詞向量顧名思義是一種通過向量來表示句子中詞語的方法,向量中的每一維都在實數范圍內進行取值操作[4]

    詞向量最早由BENGIO Y、DUCHARME R、VINCENT P等人提出[5],其傳統做法是One-hot表示方法,即將不同詞用相對應的維度很高的向量來表示,其中,向量的維度對應字典大小,在各個詞的向量中只存在一個位置為1,其余位置為0。該表示模型十分簡潔,便于理解,但是由于數據稀疏會造成維數災難,并且該模型沒有考慮詞與詞之間的關聯性,準確度不高。

    近年來,被稱作詞的分布式表示的向量表示得到了較為廣泛的應用,理論思路是通過訓練,將句子中的各詞語映射到N維向量空間中。該方法在One-hot的基礎上,聯系了前后文的語義信息,使語義相近詞語所映射得到的詞向量比較接近,而One-hot法得到的是毫無關聯的詞向量。即可以通過詞與詞在空間中的距離計算詞與詞在語義上的相關性,距離越小則語義越相關,距離越大則越無關。2013年,MIKOLOV T等人提出利用神經網絡模型來訓練分布式詞向量[6],所得到的模型被稱作Word2Vec,該模型可以通過前后文的詞匯預測中心詞或者通過中心詞來預測前后文的詞匯。它相當于一個里程碑,現在也被廣泛使用。Doc2Vec是Word2Vec的擴展,于2014年由MIKOLOV T等人提出[7],同樣用于學習文檔表示。該模型在構建的過程中,在獲取上下文單詞信息的同時,增加了一個段落標記,能夠更精確地表示原始文本。但是在實際應用中Doc2Vec需要大量數據進行訓練才能有較好的效果,當數據量不足時,提取信息不充分,結果產生的偶然性較大。

    主題模型由于可以發掘深層次的語義信息,因此在構建文本表示模型時也可以達到較好的效果。2003年BLEI D M、JORDAN M I等人提出了潛在狄利克雷分布[8],首次將狄利克雷先驗分布加入到文檔、主題、詞的多項式分布中,效果顯著。LDA是一種從大量文檔中發現潛在主題的概率主題模型,它從文本的統計學特性入手,將文本語料庫映射到各個主題空間中,從而發掘文本中各主題與詞語之間的對應關系,得到文本的主題分布[9]。它通常被認為是一種通過對不同主題中的單詞進行分組的特征約簡方法,因此可以將文檔映射到更低的維度空間。但LDA沒有考慮詞語的前后文關聯,構建出的文本向量比較稀疏,在表示原始文本的信息方面效果一般。

    本文嘗試將LDA和Doc2Vec進行融合。LDA從每個文檔到所有主題的全局關系建模,而Doc2Vec則通過從目標單詞的上下文中學習來捕獲這些關系。發揮這兩種模型各自的優點,從而產生比傳統模型更高的準確率判斷。




論文詳細內容請下載http://www.jysgc.com/resource/share/2000002836




作者信息:

肖  晗1,毛雪松1,朱澤德2

(1.武漢科技大學 信息科學與工程學院,湖北 武漢430081;

2.中科院合肥技術創新工程院,安徽 合肥230031)


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 国产成人综合美国十次| 娇妻借朋友高h繁交h| 亚洲国产成人精品无码区在线网站 | 884hutv四虎永久7777| 好爽…又高潮了免费毛片| 嘟嘟嘟www在线观看免费高清| 成人黄色免费网址| 国产精品亚洲片在线观看不卡| 97大香伊在人人线色| 奇米影视中文字幕| 一本大道道无香蕉综合在线| 斗罗大陆动漫完整免费 | 国产成人yy精品1024在线| 两个人看的www免费视频| 国产高清无专砖区2021| a毛片免费观看完整| 嫣嫣是女大生韩漫免费看| 中国speakingathome宾馆学生| 男人边吃奶边做弄进去免费视频 | 怡红院免费的全部视频| 中文成人无字幕乱码精品区| 日本理论在线看片| 久久精品国产精品亚洲精品 | 国产一区二区三区在线观看免费 | 美女极度色诱视频国产| 国产亚洲成AV人片在线观看导航| www.午夜精品| 性初第一次电影在线观看| 中文字幕在线观看网站| 无码精品一区二区三区在线 | 中国高清xvideossex| 国产精品香蕉在线观看| 9420免费高清在线视频| 国语自产偷拍精品视频偷拍| 中文精品久久久久国产网址 | 成人毛片18女人毛片免费| 丰满女人又爽又紧又丰满| 日本一道在线观看| 久久久久久久91精品免费观看| 日本欧美视频在线观看| 久久午夜精品视频|