《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計(jì) > 設(shè)計(jì)應(yīng)用 > 基于HybridDL模型的文本相似度檢測方法
基于HybridDL模型的文本相似度檢測方法
2020年電子技術(shù)應(yīng)用第6期
肖 晗1,毛雪松1,朱澤德2
1.武漢科技大學(xué) 信息科學(xué)與工程學(xué)院,湖北 武漢430081; 2.中科院合肥技術(shù)創(chuàng)新工程院,安徽 合肥230031
摘要: 為了提高文本相似度檢測算法的準(zhǔn)確度,提出一種結(jié)合潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)與Doc2Vec模型的文本相似度檢測方法,并把該算法得到的模型命名為HybridDL模型。該算法通過Doc2Vec對文檔訓(xùn)練得到文檔向量,再利用LDA模型得到文檔主題與各個主題下特征詞出現(xiàn)的概率,對文檔中各主題及特征詞計(jì)算概率加權(quán)和,映射到Doc2Vec文檔向量中。實(shí)驗(yàn)結(jié)果表明,新算法模型比傳統(tǒng)的Doc2Vec模型對相似文本的判斷更加敏感,在文本相似度檢測上具有更高的準(zhǔn)確度。
中圖分類號: TN957.52;TP391.1
文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.191257
中文引用格式: 肖晗,毛雪松,朱澤德. 基于HybridDL模型的文本相似度檢測方法[J].電子技術(shù)應(yīng)用,2020,46(6):28-31,35.
英文引用格式: Xiao Han,Mao Xuesong,Zhu Zede. Text similarity detection method based on HybridDL model[J]. Application of Electronic Technique,2020,46(6):28-31,35.
Text similarity detection method based on HybridDL model
Xiao Han1,Mao Xuesong1,Zhu Zede2
1.School of Information Science and Engineering,Wuhan University of Science and Technology,Wuhan 430081,China; 2.Institute of Technology Innovation,Hefei Institutes of Physical Science,Chinese Academy of Sciences,Hefei 230031,China
Abstract: In order to improve the accuracy of text similarity detection algorithm, this paper proposes a text similarity detection method combining latent Dirichlet Allocation(LDA) and Doc2Vec model, and names the model obtained by the algorithm HybridDL model. This algorithm obtains the document vector through Doc2Vec training of the document, and then obtains the probability of the occurrence of the document topic and the feature words under each topic with the LDA model, calculates the probability weighted sum of each topic and feature words in the document, and maps them to the Doc2Vec document vector. Experimental results show that the new algorithm model is more sensitive to the judgment of similar text than the traditional Doc2Vec model, and has higher accuracy in the detection of text similarity.
Key words : Doc2Vec;latent Dirichlet allocation;text representation;text similarity

0 引言

    在當(dāng)下這個信息時代,互聯(lián)網(wǎng)已經(jīng)成為人們生活中不可或缺的一部分,在機(jī)器計(jì)算能力大幅度提高的同時,獲得的數(shù)據(jù)也呈爆炸式增長。文本數(shù)據(jù)作為數(shù)據(jù)中的重要組成部分,量大且關(guān)鍵。因此,從大量的文本數(shù)據(jù)中高效地提取出滿足人們需要的信息成為了當(dāng)下的熱門話題。在自然語言處理領(lǐng)域,通過計(jì)算機(jī)處理文本數(shù)據(jù)時,由于語言的多樣性,相同的詞語在不同的句子或者語境中表達(dá)出來的意思可能會存在差異,導(dǎo)致計(jì)算機(jī)無法直接并準(zhǔn)確地獲取文本特征[1]。所以,如何從語料中學(xué)習(xí)到好的文本表示,如何提升文本表示模型的性能,對于后續(xù)自然語言處理的相關(guān)研究,如機(jī)器翻譯、文本分類[2]、情感分析[3]、問答系統(tǒng)、文本檢索等,具有十分深遠(yuǎn)的意義。

    建立文本表示模型包括對詞、主題、語句、文檔等各個級別任務(wù)進(jìn)行建模。對于詞級別的文本表示模型,通常使用被稱作詞向量的數(shù)學(xué)表示方法來處理。詞向量顧名思義是一種通過向量來表示句子中詞語的方法,向量中的每一維都在實(shí)數(shù)范圍內(nèi)進(jìn)行取值操作[4]

    詞向量最早由BENGIO Y、DUCHARME R、VINCENT P等人提出[5],其傳統(tǒng)做法是One-hot表示方法,即將不同詞用相對應(yīng)的維度很高的向量來表示,其中,向量的維度對應(yīng)字典大小,在各個詞的向量中只存在一個位置為1,其余位置為0。該表示模型十分簡潔,便于理解,但是由于數(shù)據(jù)稀疏會造成維數(shù)災(zāi)難,并且該模型沒有考慮詞與詞之間的關(guān)聯(lián)性,準(zhǔn)確度不高。

    近年來,被稱作詞的分布式表示的向量表示得到了較為廣泛的應(yīng)用,理論思路是通過訓(xùn)練,將句子中的各詞語映射到N維向量空間中。該方法在One-hot的基礎(chǔ)上,聯(lián)系了前后文的語義信息,使語義相近詞語所映射得到的詞向量比較接近,而One-hot法得到的是毫無關(guān)聯(lián)的詞向量。即可以通過詞與詞在空間中的距離計(jì)算詞與詞在語義上的相關(guān)性,距離越小則語義越相關(guān),距離越大則越無關(guān)。2013年,MIKOLOV T等人提出利用神經(jīng)網(wǎng)絡(luò)模型來訓(xùn)練分布式詞向量[6],所得到的模型被稱作Word2Vec,該模型可以通過前后文的詞匯預(yù)測中心詞或者通過中心詞來預(yù)測前后文的詞匯。它相當(dāng)于一個里程碑,現(xiàn)在也被廣泛使用。Doc2Vec是Word2Vec的擴(kuò)展,于2014年由MIKOLOV T等人提出[7],同樣用于學(xué)習(xí)文檔表示。該模型在構(gòu)建的過程中,在獲取上下文單詞信息的同時,增加了一個段落標(biāo)記,能夠更精確地表示原始文本。但是在實(shí)際應(yīng)用中Doc2Vec需要大量數(shù)據(jù)進(jìn)行訓(xùn)練才能有較好的效果,當(dāng)數(shù)據(jù)量不足時,提取信息不充分,結(jié)果產(chǎn)生的偶然性較大。

    主題模型由于可以發(fā)掘深層次的語義信息,因此在構(gòu)建文本表示模型時也可以達(dá)到較好的效果。2003年BLEI D M、JORDAN M I等人提出了潛在狄利克雷分布[8],首次將狄利克雷先驗(yàn)分布加入到文檔、主題、詞的多項(xiàng)式分布中,效果顯著。LDA是一種從大量文檔中發(fā)現(xiàn)潛在主題的概率主題模型,它從文本的統(tǒng)計(jì)學(xué)特性入手,將文本語料庫映射到各個主題空間中,從而發(fā)掘文本中各主題與詞語之間的對應(yīng)關(guān)系,得到文本的主題分布[9]。它通常被認(rèn)為是一種通過對不同主題中的單詞進(jìn)行分組的特征約簡方法,因此可以將文檔映射到更低的維度空間。但LDA沒有考慮詞語的前后文關(guān)聯(lián),構(gòu)建出的文本向量比較稀疏,在表示原始文本的信息方面效果一般。

    本文嘗試將LDA和Doc2Vec進(jìn)行融合。LDA從每個文檔到所有主題的全局關(guān)系建模,而Doc2Vec則通過從目標(biāo)單詞的上下文中學(xué)習(xí)來捕獲這些關(guān)系。發(fā)揮這兩種模型各自的優(yōu)點(diǎn),從而產(chǎn)生比傳統(tǒng)模型更高的準(zhǔn)確率判斷。




論文詳細(xì)內(nèi)容請下載http://www.jysgc.com/resource/share/2000002836




作者信息:

肖  晗1,毛雪松1,朱澤德2

(1.武漢科技大學(xué) 信息科學(xué)與工程學(xué)院,湖北 武漢430081;

2.中科院合肥技術(shù)創(chuàng)新工程院,安徽 合肥230031)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
午夜日韩在线| 99在线热播精品免费| 亚洲黄色影院| 韩日成人在线| 国产一区二区精品久久91| 国产精品嫩草久久久久| 欧美色中文字幕| 欧美日韩国内自拍| 欧美日韩一区二区免费视频| 欧美精品九九| 欧美精品日韩综合在线| 欧美精品一卡| 欧美日韩第一页| 欧美日韩性视频在线| 欧美日韩午夜视频在线观看| 欧美日韩精品在线| 欧美午夜不卡影院在线观看完整版免费| 欧美日韩国产区| 国产精品盗摄久久久| 国产精品高潮呻吟久久av无限| 欧美日一区二区三区在线观看国产免| 欧美精品尤物在线| 欧美日精品一区视频| 国产精品国产| 国产伦精品一区| 国产午夜精品美女视频明星a级| 国产日韩一区| 一区二区视频欧美| 亚洲国产欧美日韩| aa亚洲婷婷| 亚洲欧美日本视频在线观看| 先锋影音一区二区三区| 久久爱另类一区二区小说| 亚洲国产日本| 夜夜嗨av一区二区三区中文字幕| 亚洲色无码播放| 午夜在线精品| 久久噜噜亚洲综合| 欧美成ee人免费视频| 欧美日韩精品欧美日韩精品| 欧美性色aⅴ视频一区日韩精品| 国产精品一区二区久久| 国产一区二三区| 1024亚洲| 亚洲视频精选| 欧美在线影院| 日韩一区二区免费高清| 亚洲自拍偷拍网址| 久久久久久电影| 欧美激情在线播放| 国产乱人伦精品一区二区| 伊人蜜桃色噜噜激情综合| 亚洲理伦在线| 香港久久久电影| 99re6这里只有精品视频在线观看| 亚洲午夜极品| 久久久99爱| 欧美久久综合| 国产亚洲精品aa| 亚洲精品网址在线观看| 欧美一区二区成人| 99视频一区二区| 久久精品国产亚洲5555| 免费在线欧美视频| 国产精品嫩草影院一区二区 | 欧美日韩国产综合一区二区 | 国产日韩欧美91| 亚洲区在线播放| 欧美伊久线香蕉线新在线| 99视频精品免费观看| 久久久www| 国产精品va| 亚洲电影免费| 性娇小13――14欧美| 一区二区欧美激情| 看欧美日韩国产| 国产女主播一区二区三区| 最新国产精品拍自在线播放| 午夜久久一区| 亚洲四色影视在线观看| 免费成人高清视频| 国产日韩欧美在线| 在线亚洲国产精品网站| 亚洲日本免费电影| 久久久7777| 国产精品视频观看| 99精品久久久| 亚洲精品在线观| 久久久久网站| 国产精品揄拍一区二区| 亚洲乱亚洲高清| 亚洲激情一区二区三区| 久久久精品国产免大香伊| 国产精品久久7| 亚洲精品一线二线三线无人区| 亚洲高清不卡在线观看| 欧美伊人久久久久久午夜久久久久 | 欧美精品在线极品| 永久免费视频成人| 久久99在线观看| 久久成年人视频| 国产乱码精品一区二区三区忘忧草| 日韩亚洲视频在线| 日韩午夜电影av| 欧美福利视频网站| 一区二区三区在线视频观看| 欧美一区二区免费| 久久国产精品久久国产精品| 国产精品入口66mio| 亚洲视频综合在线| 亚洲深夜福利| 欧美日韩国产免费观看| 亚洲片在线资源| 日韩一区二区电影网| 欧美精品一区二区三区四区| 在线日韩电影| 亚洲日本一区二区| 免费日韩精品中文字幕视频在线| 精品99一区二区三区| 亚洲电影在线观看| 美国成人直播| 亚洲国产一区二区三区高清| 亚洲精选一区| 欧美理论在线播放| 99视频精品全国免费| 亚洲视频每日更新| 国产精品久久久久久久久久免费| 亚洲午夜国产一区99re久久| 午夜精品久久久久久99热软件| 国产精品免费一区二区三区在线观看| 亚洲天堂免费观看| 欧美亚洲在线视频| 国产一区二区无遮挡| 亚洲国产精品毛片| 欧美电影免费观看大全| 亚洲精品日韩综合观看成人91| 一区二区三区国产在线| 国产精品国产三级国产aⅴ浪潮| 亚洲在线日韩| 久久视频在线看| 亚洲第一精品电影| 一区二区三区|亚洲午夜| 欧美日韩一区免费| 亚洲免费一区二区| 久久男人资源视频| 亚洲人成网在线播放| 亚洲夜晚福利在线观看| 国产色综合网| 亚洲国内自拍| 欧美吻胸吃奶大尺度电影| 亚洲欧美中文日韩在线| 蜜桃av噜噜一区| 日韩一级视频免费观看在线| 先锋影音一区二区三区| 国产在线视频欧美| 99精品99久久久久久宅男| 国产精品日韩二区| 亚洲高清久久| 欧美视频福利| 久久精品视频网| 欧美日韩一区二区免费视频| 午夜精品一区二区在线观看| 欧美成年人网| 亚洲一区二区三区涩| 久久免费视频网| 日韩午夜高潮| 久久激情五月丁香伊人| 亚洲国产成人porn| 亚洲欧美三级伦理| 在线看视频不卡| 午夜欧美不卡精品aaaaa| 国内偷自视频区视频综合| 在线亚洲自拍| 韩国成人精品a∨在线观看| 亚洲色图在线视频| 韩国精品久久久999| 在线一区观看| 精东粉嫩av免费一区二区三区| 国产精品99久久久久久有的能看| 国产一区二区视频在线观看| 一区二区毛片| 黄色成人在线| 亚洲男人av电影| 亚洲国产精品精华液2区45| 欧美一区网站| 亚洲免费成人| 免费观看日韩av| 香蕉久久精品日日躁夜夜躁| 欧美日韩国产综合一区二区| 久久精品欧洲| 国产精品永久| 中国亚洲黄色| 亚洲福利视频一区二区| 欧美一级二级三级蜜桃| 99精品国产一区二区青青牛奶| 久久躁狠狠躁夜夜爽| 亚洲女与黑人做爰| 欧美日韩一区精品| 亚洲精选一区二区| 一区二区三区在线观看国产|