《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計應(yīng)用 > 一種結(jié)合TF-IDF和Simhash的科技項目文本相似性度量方法
一種結(jié)合TF-IDF和Simhash的科技項目文本相似性度量方法
電子技術(shù)應(yīng)用
孫北寧1,2,呂維新3,曾俊4,肖衡4
(1.云南電網(wǎng)有限責(zé)任公司 科數(shù)部,云南 昆明 650011;2.西南林業(yè)大學(xué) 大數(shù)據(jù)與智能工程學(xué)院,云南 昆明 650224; 3.云南電網(wǎng)有限責(zé)任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)
摘要: 為了提高科技項目文本相似性度量的準(zhǔn)確性和性能,將TF-IDF和Simhash相結(jié)合,提出了一種新的科技項目文本相似性度量方法。首先,該方法對科技項目文本進行預(yù)處理得到詞項集合,再使用TF-IDF計算詞項集合中每個詞項的權(quán)重值,并選取具有較高權(quán)重值的重要詞項;其次,使用Simhash把重要詞項映射為固定長度的二進制串,并求和得到文本的Simhash簽名;最后,使用漢明距離計算兩個Simhash簽名間的相似性。實驗結(jié)果表明,所提方法在查準(zhǔn)率、召回率和F度量值方面優(yōu)于傳統(tǒng)的Simhash算法和TF-IDF方法。
中圖分類號:TP311
文獻標(biāo)志碼:A
DOI: 10.16157/j.issn.0258-7998.223379
中文引用格式: 孫北寧,呂維新,曾俊,等. 一種結(jié)合TF-IDF和Simhash的科技項目文本相似性度量方法[J]. 電子技術(shù)應(yīng)用,2023,49(6):89-93.
英文引用格式: Sun Beining,Lv Weixin,Zeng Jun,et al. An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash[J]. Application of Electronic Technique,2023,49(6):89-93.
An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash
Sun Beining1,2,Lv Weixin3,Zeng Jun4,Xiao Heng4
(1.Department of Science Technology and Data, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 2.School of Big Data and Intelligent Engineering, Southwest Forestry University, Kunming 650224, China; 3.Kunming Power Supply Bureau, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 4.Yunnan Yundian Tongfang Technology Co., Ltd., Kunming 650214, China)
Abstract: To enhance the accuracy and performance of text similarity measurement of science and technology projects, this paper proposes a new approach for measuring text similarity of science and technology projects by combining TF-IDF and Simhash. Firstly, this method uses natural language processing technology to preprocess science and technology project texts to get a term set, then uses the TF-IDF method to calculate the TF-IDF value of each term in the term set, and selects the important term with higher TF-IDF value. Secondly, this method uses the Simhash algorithm to get the Simhash signature of the text through mapping the selected important terms into fixed binary strings. Finally, Hamming distance is used to calculate the similarity between two Simhash signatures. Experimental results show that compared to the traditional Simhash and TF-IDF, the proposed method can promote the evaluation metrics of precision, recall and F-measure.
Key words : science and technology project text;text similarity;TF-IDF;Simhash

0 引言

隨著國家對科技事業(yè)經(jīng)費的大量投入,少數(shù)科研單位或個人為了獲取更多的科研經(jīng)費,出現(xiàn)了重復(fù)申報的現(xiàn)象。文本相似性度量被認(rèn)為是檢測文本重復(fù)的最好方法之一,可以用來自動檢測科技項目文本的相似性和重復(fù)性。

TF-IDF是一種經(jīng)典的文本相似性度量方法,將文本視為詞項的集合,并通過詞頻信息將文本表示為一個向量,以此計算文本的相似性。但是,該方法并沒有降低文本模型的維度。對于科技項目文本,由于詞項數(shù)目巨大,因此,基于詞頻向量模型的文本表示是高維、稀疏的,這將導(dǎo)致低效的計算性能。

Simhash是一種局部敏感哈希方法,將高維數(shù)據(jù)降維到具有固定長度的二進制串(Simhash簽名),再通過對二進制串進行相似性計算來比較文本的相似度。這種方法在高維數(shù)據(jù)空間具有優(yōu)異的計算性能。但是,該方法未考慮科技項目文本中詞項的重要性,存在準(zhǔn)確率不高的問題。



本文詳細(xì)內(nèi)容請下載:http://www.jysgc.com/resource/share/2000005355




作者信息:

孫北寧1,2,呂維新3,曾俊4,肖衡4

(1.云南電網(wǎng)有限責(zé)任公司 科數(shù)部,云南 昆明 650011;2.西南林業(yè)大學(xué) 大數(shù)據(jù)與智能工程學(xué)院,云南 昆明 650224;
3.云南電網(wǎng)有限責(zé)任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 国产精品国产精品偷麻豆| 99re热这里只有精品视频| 一个人看的www免费高清中文字幕 一个人看的www免费高清中文字幕 | 老司机午夜免费视频| 永久在线毛片免费观看| 日本爽爽爽爽爽爽在线观看免| 太深太粗太爽太猛了视频| 国产日韩视频在线| 冲田杏梨在线中文字幕全集| 亚洲一区二区三区在线观看网站| 中文字幕精品一区二区三区视频| 97福利视频精品第一导航| 超碰aⅴ人人做人人爽欧美| 欧美深夜福利视频| 无码人妻精品一区二区三区9厂 | 亚洲精品无码mv在线观看| 久久中文字幕人妻丝袜| 69视频在线看| 综合网小说图片区| 最新更新国内自拍视频| 在线观看一区二区精品视频| 国产va免费精品高清在线观看| 亚洲人成毛片线播放| videofree极品另类| 荡货把腿给我打开视频| 欧美亚洲国产精品久久高清| 嫩草影院在线免费观看| 国产伦精品一区二区| 亚洲国产av一区二区三区丶| 一本色道久久综合一区| 黄色黄色一级片| 欧美视频亚洲视频| 奇米精品视频一区二区三区| 国产三级在线电影| 亚洲乱码中文字幕综合| CAOPORN视频在线观看| 蜜桃麻豆WWW久久囤产精品| 欧美不卡视频在线| 国模欢欢炮交啪啪150| 免费看特级毛片| 久久久久久曰本av免费免费 |