《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 一種結合TF-IDF和Simhash的科技項目文本相似性度量方法
一種結合TF-IDF和Simhash的科技項目文本相似性度量方法
電子技術應用
孫北寧1,2,呂維新3,曾俊4,肖衡4
(1.云南電網有限責任公司 科數部,云南 昆明 650011;2.西南林業大學 大數據與智能工程學院,云南 昆明 650224; 3.云南電網有限責任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)
摘要: 為了提高科技項目文本相似性度量的準確性和性能,將TF-IDF和Simhash相結合,提出了一種新的科技項目文本相似性度量方法。首先,該方法對科技項目文本進行預處理得到詞項集合,再使用TF-IDF計算詞項集合中每個詞項的權重值,并選取具有較高權重值的重要詞項;其次,使用Simhash把重要詞項映射為固定長度的二進制串,并求和得到文本的Simhash簽名;最后,使用漢明距離計算兩個Simhash簽名間的相似性。實驗結果表明,所提方法在查準率、召回率和F度量值方面優于傳統的Simhash算法和TF-IDF方法。
中圖分類號:TP311
文獻標志碼:A
DOI: 10.16157/j.issn.0258-7998.223379
中文引用格式: 孫北寧,呂維新,曾俊,等. 一種結合TF-IDF和Simhash的科技項目文本相似性度量方法[J]. 電子技術應用,2023,49(6):89-93.
英文引用格式: Sun Beining,Lv Weixin,Zeng Jun,et al. An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash[J]. Application of Electronic Technique,2023,49(6):89-93.
An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash
Sun Beining1,2,Lv Weixin3,Zeng Jun4,Xiao Heng4
(1.Department of Science Technology and Data, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 2.School of Big Data and Intelligent Engineering, Southwest Forestry University, Kunming 650224, China; 3.Kunming Power Supply Bureau, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 4.Yunnan Yundian Tongfang Technology Co., Ltd., Kunming 650214, China)
Abstract: To enhance the accuracy and performance of text similarity measurement of science and technology projects, this paper proposes a new approach for measuring text similarity of science and technology projects by combining TF-IDF and Simhash. Firstly, this method uses natural language processing technology to preprocess science and technology project texts to get a term set, then uses the TF-IDF method to calculate the TF-IDF value of each term in the term set, and selects the important term with higher TF-IDF value. Secondly, this method uses the Simhash algorithm to get the Simhash signature of the text through mapping the selected important terms into fixed binary strings. Finally, Hamming distance is used to calculate the similarity between two Simhash signatures. Experimental results show that compared to the traditional Simhash and TF-IDF, the proposed method can promote the evaluation metrics of precision, recall and F-measure.
Key words : science and technology project text;text similarity;TF-IDF;Simhash

0 引言

隨著國家對科技事業經費的大量投入,少數科研單位或個人為了獲取更多的科研經費,出現了重復申報的現象。文本相似性度量被認為是檢測文本重復的最好方法之一,可以用來自動檢測科技項目文本的相似性和重復性。

TF-IDF是一種經典的文本相似性度量方法,將文本視為詞項的集合,并通過詞頻信息將文本表示為一個向量,以此計算文本的相似性。但是,該方法并沒有降低文本模型的維度。對于科技項目文本,由于詞項數目巨大,因此,基于詞頻向量模型的文本表示是高維、稀疏的,這將導致低效的計算性能。

Simhash是一種局部敏感哈希方法,將高維數據降維到具有固定長度的二進制串(Simhash簽名),再通過對二進制串進行相似性計算來比較文本的相似度。這種方法在高維數據空間具有優異的計算性能。但是,該方法未考慮科技項目文本中詞項的重要性,存在準確率不高的問題。



本文詳細內容請下載:http://www.jysgc.com/resource/share/2000005355




作者信息:

孫北寧1,2,呂維新3,曾俊4,肖衡4

(1.云南電網有限責任公司 科數部,云南 昆明 650011;2.西南林業大學 大數據與智能工程學院,云南 昆明 650224;
3.云南電網有限責任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 久久久久九九精品影院| 偷炮少妇宾馆半推半就激情| 香港三级欧美国产精品| 女人张开大腿让男人桶| 中文字幕成人乱码在线电影| 日韩欧美中文字幕一区二区三区| 亚洲国产精品成人午夜在线观看 | 成人在线视频免费| 久久人妻少妇嫩草AV| 最近中文字幕在线中文高清版| 亚洲欧美日韩中文字幕在线一 | 亚洲国产欧美国产综合一区| 污网站视频在线观看| 国产又黄又爽胸又大免费视频| 伊人影视在线观看日韩区| 国产馆在线观看| 99国产精品久久久久久久成人热| 女同学下面粉粉嫩嫩的p| 三上悠亚在线网站| 成人白浆超碰人人人人| 久久66久这里精品99| 欧美怡红院在线| 国产日韩av在线播放| 51妺嘿嘿午夜福利| 国色天香论坛社区在线视频 | 精品国产三级a| 国产污片在线观看| 2018中文字幕在线观看| 强制邻居侵犯456在线观看| 亚洲人成人一区二区三区| 欧美日韩在大午夜爽爽影院| 亚洲精品乱码久久久久久按摩| 特黄特黄一级高清免费大片| 免费人成视频在线观看网站| 西西人体www44rt大胆高清| 国产精品深爱在线| 91精品久久久久久久久久小网站| 大伊人青草狠狠久久| JAPANRCEP老熟妇乱子伦视频| 日本三级韩国三级三级a级按摩| 久久精品国产亚洲夜色AV网站 |