《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 一種結合TF-IDF和Simhash的科技項目文本相似性度量方法
一種結合TF-IDF和Simhash的科技項目文本相似性度量方法
電子技術應用
孫北寧1,2,呂維新3,曾俊4,肖衡4
(1.云南電網有限責任公司 科數部,云南 昆明 650011;2.西南林業大學 大數據與智能工程學院,云南 昆明 650224; 3.云南電網有限責任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)
摘要: 為了提高科技項目文本相似性度量的準確性和性能,將TF-IDF和Simhash相結合,提出了一種新的科技項目文本相似性度量方法。首先,該方法對科技項目文本進行預處理得到詞項集合,再使用TF-IDF計算詞項集合中每個詞項的權重值,并選取具有較高權重值的重要詞項;其次,使用Simhash把重要詞項映射為固定長度的二進制串,并求和得到文本的Simhash簽名;最后,使用漢明距離計算兩個Simhash簽名間的相似性。實驗結果表明,所提方法在查準率、召回率和F度量值方面優于傳統的Simhash算法和TF-IDF方法。
中圖分類號:TP311
文獻標志碼:A
DOI: 10.16157/j.issn.0258-7998.223379
中文引用格式: 孫北寧,呂維新,曾俊,等. 一種結合TF-IDF和Simhash的科技項目文本相似性度量方法[J]. 電子技術應用,2023,49(6):89-93.
英文引用格式: Sun Beining,Lv Weixin,Zeng Jun,et al. An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash[J]. Application of Electronic Technique,2023,49(6):89-93.
An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash
Sun Beining1,2,Lv Weixin3,Zeng Jun4,Xiao Heng4
(1.Department of Science Technology and Data, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 2.School of Big Data and Intelligent Engineering, Southwest Forestry University, Kunming 650224, China; 3.Kunming Power Supply Bureau, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 4.Yunnan Yundian Tongfang Technology Co., Ltd., Kunming 650214, China)
Abstract: To enhance the accuracy and performance of text similarity measurement of science and technology projects, this paper proposes a new approach for measuring text similarity of science and technology projects by combining TF-IDF and Simhash. Firstly, this method uses natural language processing technology to preprocess science and technology project texts to get a term set, then uses the TF-IDF method to calculate the TF-IDF value of each term in the term set, and selects the important term with higher TF-IDF value. Secondly, this method uses the Simhash algorithm to get the Simhash signature of the text through mapping the selected important terms into fixed binary strings. Finally, Hamming distance is used to calculate the similarity between two Simhash signatures. Experimental results show that compared to the traditional Simhash and TF-IDF, the proposed method can promote the evaluation metrics of precision, recall and F-measure.
Key words : science and technology project text;text similarity;TF-IDF;Simhash

0 引言

隨著國家對科技事業經費的大量投入,少數科研單位或個人為了獲取更多的科研經費,出現了重復申報的現象。文本相似性度量被認為是檢測文本重復的最好方法之一,可以用來自動檢測科技項目文本的相似性和重復性。

TF-IDF是一種經典的文本相似性度量方法,將文本視為詞項的集合,并通過詞頻信息將文本表示為一個向量,以此計算文本的相似性。但是,該方法并沒有降低文本模型的維度。對于科技項目文本,由于詞項數目巨大,因此,基于詞頻向量模型的文本表示是高維、稀疏的,這將導致低效的計算性能。

Simhash是一種局部敏感哈希方法,將高維數據降維到具有固定長度的二進制串(Simhash簽名),再通過對二進制串進行相似性計算來比較文本的相似度。這種方法在高維數據空間具有優異的計算性能。但是,該方法未考慮科技項目文本中詞項的重要性,存在準確率不高的問題。



本文詳細內容請下載:http://www.jysgc.com/resource/share/2000005355




作者信息:

孫北寧1,2,呂維新3,曾俊4,肖衡4

(1.云南電網有限責任公司 科數部,云南 昆明 650011;2.西南林業大學 大數據與智能工程學院,云南 昆明 650224;
3.云南電網有限責任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)


此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美国产精品中文字幕| 午夜精品国产精品大乳美女| 艳女tv在线观看国产一区| 亚洲高清视频一区| 欧美激情精品久久久| 久久久国产精品一区二区中文 | 一区二区三区在线视频播放| 毛片一区二区三区| 艳妇臀荡乳欲伦亚洲一区| 亚洲第一在线| 日韩午夜在线播放| 国产精品入口福利| 麻豆91精品91久久久的内涵| 久久岛国电影| 亚洲毛片在线免费观看| 一本色道88久久加勒比精品 | 久久精品中文字幕免费mv| 欧美一级在线视频| 亚洲电影自拍| 欧美一区亚洲| 亚洲国产成人av| 在线观看精品一区| 国产精品久久久91| 免播放器亚洲一区| 快she精品国产999| 亚洲特色特黄| 久久精品国产成人| 亚洲美女性视频| 国产精品日韩欧美综合| 国产精品夫妻自拍| 国产精品久久久久999| 国产精品午夜在线| 国产一区二区精品在线观看| 欧美日韩不卡在线| 久久久一本精品99久久精品66| 国产精品久久久久久久一区探花| 亚洲视频免费看| 欧美专区在线观看| 亚洲视频1区2区| 亚洲国产精品www| 91久久久一线二线三线品牌| 国产欧美日韩视频在线观看 | 国产在线精品一区二区中文| 欧美日韩综合在线| 欧美成人国产| 欧美一区二区三区啪啪| 久久精品国产视频| 老司机午夜精品视频在线观看| 欧美成人一区二区三区片免费| 欧美女主播在线| 免费观看亚洲视频大全| 欧美全黄视频| 国产精品视频导航| 狠狠综合久久av一区二区老牛| 国产精品久久久对白| 国产午夜一区二区三区| 国产精品电影观看| 国产日韩欧美在线看| 在线欧美不卡| 国产欧美日韩三区| 136国产福利精品导航网址应用| 99视频在线观看一区三区| 亚洲欧美综合国产精品一区| 亚洲国产第一| 亚洲一区亚洲| 在线视频亚洲| 亚洲美女视频在线观看| 亚洲欧美日韩国产成人| 亚洲午夜一区二区三区| 久久精品国产综合| 欧美日韩播放| 国内精品久久久久久久果冻传媒 | 日韩视频不卡| 久久精品国产在热久久| 日韩亚洲欧美一区二区三区| 欧美亚洲一级| 校园春色国产精品| 免费不卡在线观看av| 国产精品日韩在线播放| 亚洲激情一区| 亚洲伦理中文字幕| 久久国产精品久久w女人spa| 国产精品丝袜白浆摸在线| 欧美国产在线电影| 国产视频久久久久| 一区二区不卡在线视频 午夜欧美不卡在 | 亚洲专区在线视频| 亚洲精品久久嫩草网站秘色| 亚洲国产成人av在线| 亚洲免费在线观看视频| 一区二区毛片| 蜜月aⅴ免费一区二区三区| 国产欧美日本一区二区三区| 亚洲精品在线一区二区| 亚洲丰满在线| 欧美一二三区精品| 欧美日精品一区视频| 亚洲人体一区| 亚洲精品免费在线播放| 日韩亚洲欧美高清| 久久资源在线| 国产欧美日韩综合| 亚洲视频综合| 一区二区三区国产在线| 欧美jjzz| 欧美日韩在线不卡一区| 国产精品男女猛烈高潮激情| 亚洲精品乱码久久久久| 亚洲级视频在线观看免费1级| aa成人免费视频| 嫩模写真一区二区三区三州| 国产一区二区三区在线观看视频| 亚洲制服丝袜在线| 亚洲欧美日韩在线不卡| 久久人体大胆视频| 欧美久久99| 亚洲国产天堂久久综合网| 亚洲欧洲在线一区| 蜜臀av一级做a爰片久久| 伊人久久亚洲热| 欧美自拍丝袜亚洲| 久久久免费精品视频| 国产一区二区三区在线观看免费视频 | 国产综合色产| 亚洲大片一区二区三区| 日韩视频一区二区三区在线播放免费观看| 久久久久久久网站| 国内精品福利| 亚洲国产岛国毛片在线| 欧美福利视频一区| 亚洲国内欧美| 亚洲作爱视频| 亚洲人成在线观看网站高清| 亚洲一区二区三区在线看| 亚欧成人在线| 亚洲日本欧美| 欧美福利专区| 亚洲精品一级| 亚洲一区在线视频| 国产精品亚洲人在线观看| 亚洲欧美日韩国产另类专区| 亚洲精品欧美日韩| 欧美经典一区二区| 国内成人精品视频| 亚洲国产成人精品视频| 蘑菇福利视频一区播放| 亚洲激情国产| 99re这里只有精品6| 欧美视频三区在线播放| 亚洲女同精品视频| 久久婷婷国产麻豆91天堂| 亚洲福利视频一区| 一本色道久久综合亚洲精品按摩 | 亚洲天堂网在线观看| 欧美在线二区| 欧美日韩直播| 亚洲在线免费观看| 久久婷婷国产综合尤物精品| 亚洲国产天堂久久综合| 亚洲欧美日本视频在线观看| 国产午夜精品在线| 日韩午夜av在线| 国产女精品视频网站免费| 亚洲精品中文字幕女同| 亚洲欧美日韩国产综合| 国内精品久久久久久久97牛牛| 亚洲美女毛片| 国产精品香蕉在线观看| 亚洲福利小视频| 欧美日韩一本到| 欧美一级淫片播放口| 欧美搞黄网站| 亚洲一区二区三区视频播放| 老牛影视一区二区三区| 一区二区三区四区在线| 亚洲毛片在线看| 国产精品日韩精品| 亚洲激情婷婷| 国产精品入口尤物| 亚洲人精品午夜| 国产精品久久久久7777婷婷| 亚洲国产天堂久久综合网| 久久精品国产视频| 亚洲人成网站777色婷婷| 午夜欧美精品| 亚洲激情国产| 久久久精品国产99久久精品芒果| 亚洲精品一区在线| 久久久精品性| 亚洲一区二区伦理| 欧美电影专区| 欧美一区二区福利在线| 欧美日韩中文字幕综合视频| 久久成人18免费网站| 欧美视频一区二| 亚洲激情女人| 久久国产精品久久久久久电车| 亚洲欧美一区二区三区在线| 亚洲国产高清自拍| 久久精精品视频|