《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 一種結合TF-IDF和Simhash的科技項目文本相似性度量方法
一種結合TF-IDF和Simhash的科技項目文本相似性度量方法
電子技術應用
孫北寧1,2,呂維新3,曾俊4,肖衡4
(1.云南電網有限責任公司 科數部,云南 昆明 650011;2.西南林業大學 大數據與智能工程學院,云南 昆明 650224; 3.云南電網有限責任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)
摘要: 為了提高科技項目文本相似性度量的準確性和性能,將TF-IDF和Simhash相結合,提出了一種新的科技項目文本相似性度量方法。首先,該方法對科技項目文本進行預處理得到詞項集合,再使用TF-IDF計算詞項集合中每個詞項的權重值,并選取具有較高權重值的重要詞項;其次,使用Simhash把重要詞項映射為固定長度的二進制串,并求和得到文本的Simhash簽名;最后,使用漢明距離計算兩個Simhash簽名間的相似性。實驗結果表明,所提方法在查準率、召回率和F度量值方面優于傳統的Simhash算法和TF-IDF方法。
中圖分類號:TP311
文獻標志碼:A
DOI: 10.16157/j.issn.0258-7998.223379
中文引用格式: 孫北寧,呂維新,曾俊,等. 一種結合TF-IDF和Simhash的科技項目文本相似性度量方法[J]. 電子技術應用,2023,49(6):89-93.
英文引用格式: Sun Beining,Lv Weixin,Zeng Jun,et al. An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash[J]. Application of Electronic Technique,2023,49(6):89-93.
An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash
Sun Beining1,2,Lv Weixin3,Zeng Jun4,Xiao Heng4
(1.Department of Science Technology and Data, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 2.School of Big Data and Intelligent Engineering, Southwest Forestry University, Kunming 650224, China; 3.Kunming Power Supply Bureau, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 4.Yunnan Yundian Tongfang Technology Co., Ltd., Kunming 650214, China)
Abstract: To enhance the accuracy and performance of text similarity measurement of science and technology projects, this paper proposes a new approach for measuring text similarity of science and technology projects by combining TF-IDF and Simhash. Firstly, this method uses natural language processing technology to preprocess science and technology project texts to get a term set, then uses the TF-IDF method to calculate the TF-IDF value of each term in the term set, and selects the important term with higher TF-IDF value. Secondly, this method uses the Simhash algorithm to get the Simhash signature of the text through mapping the selected important terms into fixed binary strings. Finally, Hamming distance is used to calculate the similarity between two Simhash signatures. Experimental results show that compared to the traditional Simhash and TF-IDF, the proposed method can promote the evaluation metrics of precision, recall and F-measure.
Key words : science and technology project text;text similarity;TF-IDF;Simhash

0 引言

隨著國家對科技事業經費的大量投入,少數科研單位或個人為了獲取更多的科研經費,出現了重復申報的現象。文本相似性度量被認為是檢測文本重復的最好方法之一,可以用來自動檢測科技項目文本的相似性和重復性。

TF-IDF是一種經典的文本相似性度量方法,將文本視為詞項的集合,并通過詞頻信息將文本表示為一個向量,以此計算文本的相似性。但是,該方法并沒有降低文本模型的維度。對于科技項目文本,由于詞項數目巨大,因此,基于詞頻向量模型的文本表示是高維、稀疏的,這將導致低效的計算性能。

Simhash是一種局部敏感哈希方法,將高維數據降維到具有固定長度的二進制串(Simhash簽名),再通過對二進制串進行相似性計算來比較文本的相似度。這種方法在高維數據空間具有優異的計算性能。但是,該方法未考慮科技項目文本中詞項的重要性,存在準確率不高的問題。



本文詳細內容請下載:http://www.jysgc.com/resource/share/2000005355




作者信息:

孫北寧1,2,呂維新3,曾俊4,肖衡4

(1.云南電網有限責任公司 科數部,云南 昆明 650011;2.西南林業大學 大數據與智能工程學院,云南 昆明 650224;
3.云南電網有限責任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)


此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美国产在线电影| 欧美日韩伦理在线| 日韩亚洲国产欧美| 亚洲成人资源| 欧美一区二区三区久久精品| 亚洲资源av| 亚洲图片欧洲图片av| 亚洲视频你懂的| 亚洲小说春色综合另类电影| 亚洲天堂成人| 亚洲一区二区在线免费观看| 一区二区三区波多野结衣在线观看| 亚洲精品一区在线观看| 亚洲精品中文字幕有码专区| 亚洲精品国产精品乱码不99| 亚洲伦理精品| 中国av一区| 亚洲影视中文字幕| 羞羞视频在线观看欧美| 欧美一区1区三区3区公司| 久久av一区| 亚洲国产精品久久精品怡红院| 亚洲第一福利视频| 亚洲国产另类 国产精品国产免费| 久久精品国产99| 91久久综合亚洲鲁鲁五月天| 亚洲精品网址在线观看| 一区二区三区精品国产| 亚洲一区二区三区三| 欧美一级免费视频| 久久久99免费视频| 久久一区二区精品| 欧美国产一区二区三区激情无套| 欧美日韩一区二区视频在线| 国产精品成人aaaaa网站| 国产午夜精品一区二区三区视频| 一区免费视频| 日韩视频免费观看高清在线视频 | 久久精品一区二区| 亚洲国产专区| 一本大道久久a久久精品综合 | 国产欧美一区在线| 依依成人综合视频| 日韩午夜在线电影| 亚洲欧美自拍偷拍| 亚洲激情自拍| 亚洲伊人久久综合| 久久精品最新地址| 欧美国产日韩一区二区在线观看 | 国产日韩欧美不卡| 亚洲国产精品久久久久秋霞蜜臀 | 欧美激情成人在线| 国产精品视频1区| 在线电影国产精品| 中文欧美在线视频| 亚洲成人在线网站| 日韩视频在线观看免费| 欧美一区午夜精品| 欧美激情视频一区二区三区不卡| 国产精品视频一| 亚洲欧洲精品成人久久奇米网 | 亚洲伊人久久综合| 亚洲国产天堂网精品网站| 亚洲调教视频在线观看| 久久久青草婷婷精品综合日韩| 欧美日韩第一区| 国产一区深夜福利| 一区二区三区国产精品| 亚洲国产婷婷| 欧美中文字幕在线| 欧美日韩一卡| 欧美视频中文字幕在线| 国内精品模特av私拍在线观看| 亚洲最新视频在线播放| 亚洲大胆av| 先锋影音国产精品| 欧美另类一区二区三区| 国产一区在线视频| 亚洲少妇自拍| 亚洲伦理在线观看| 久久视频在线视频| 国产精品美女久久久久aⅴ国产馆| 亚洲激情成人在线| 欧美在线综合| 欧美一区二区女人| 欧美午夜www高清视频| 亚洲国产乱码最新视频| 欧美在线视频观看| 欧美一区二区三区久久精品| 欧美精品一区二区三区高清aⅴ| 樱桃成人精品视频在线播放| 午夜免费日韩视频| 亚洲欧美另类在线| 欧美日韩一区二区免费在线观看 | 亚洲国产精品毛片| 午夜精品国产| 欧美人与性动交cc0o| 在线观看日韩av电影| 香蕉成人伊视频在线观看| 亚洲一区一卡| 欧美日韩国产综合视频在线| 亚洲高清一二三区| 亚洲丰满在线| 久久精品99国产精品| 国产精品毛片在线| 一本久久知道综合久久| 亚洲美女视频网| 模特精品裸拍一区| 一区在线播放| 久久精品天堂| 久久这里只精品最新地址| 国产亚洲午夜| 性感少妇一区| 久久精品国产精品亚洲| 国产日韩欧美综合在线| 亚洲欧美日韩精品久久亚洲区| 亚洲男人的天堂在线观看| 欧美三级乱码| 一区二区三区四区国产| 亚洲欧美清纯在线制服| 国产精品国产三级国产| 一区二区三区产品免费精品久久75| 一区二区三区欧美成人| 欧美视频一区二区在线观看| 一本久久综合亚洲鲁鲁| 亚洲自拍16p| 欧美性理论片在线观看片免费| 亚洲最黄网站| 性做久久久久久免费观看欧美 | 国产亚洲一区二区在线观看 | 91久久午夜| 亚洲色图综合久久| 国产精品a久久久久| 亚洲自拍高清| 久久精品国产99国产精品| 韩国av一区二区三区四区| 亚洲电影成人| 欧美高清视频免费观看| 亚洲精选在线观看| 亚洲女人天堂av| 国产日韩在线视频| 久久精品一区二区国产| 欧美黄色大片网站| av不卡免费看| 久久成人综合视频| 今天的高清视频免费播放成人| 亚洲精品一区二区三区99| 欧美日韩日日夜夜| 午夜精彩国产免费不卡不顿大片| 久久精品99国产精品日本| 在线观看日韩av| 这里只有精品在线播放| 国产精品嫩草99av在线| 久久国产欧美精品| 欧美久久久久久久久久| 亚洲天堂av电影| 久久综合精品国产一区二区三区| 亚洲福利视频网站| 亚洲在线观看视频网站| 国产一区二区三区黄视频| 亚洲精品中文字幕女同| 欧美性片在线观看| 欧美中文字幕不卡| 欧美日韩视频专区在线播放| 亚洲直播在线一区| 欧美大片在线观看一区| 亚洲香蕉成视频在线观看| 久久资源在线| 这里只有精品电影| 久久中文欧美| 国产精品99久久久久久久女警| 久久久久久黄| 日韩一区二区高清| 久久久久久久久岛国免费| 亚洲免费观看高清在线观看| 久久精品人人做人人爽电影蜜月| 亚洲人成艺术| 久久久免费精品| 一片黄亚洲嫩模| 亚洲伊人网站| 欧美自拍偷拍| 欧美四级在线观看| 久久动漫亚洲| 国产精品第三页| 亚洲激情在线视频| 国产精品视频999| 日韩视频精品| 国产婷婷色一区二区三区在线 | 欧美亚洲一区二区三区| 欧美日韩国产亚洲一区| 欧美在线一二三区| 国产精品久久777777毛茸茸| 亚洲激情电影在线| 国产伦精品一区二区三| 一本色道**综合亚洲精品蜜桃冫| 国产一区视频在线看| 亚洲欧美日韩一区二区| 亚洲人成网站精品片在线观看| 久久躁日日躁aaaaxxxx| 亚洲欧美国产毛片在线|