《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 一種面向科技項目文本的相似度度量方法
一種面向科技項目文本的相似度度量方法
2020年電子技術應用第5期
趙曉平1,馬 文1,劉雪萍2,陳 達2
1. 云南電網有限責任公司 信息中心,云南 昆明 650011;2. 云南云電同方科技有限公司,云南 昆明 650220
摘要: 現有的文本相似度度量方法主要采用TF-IDF方法,把文本建模為詞頻向量,但未考慮文本的結構特征。現將文本的結構特征和TF-IDF方法進行融合,提出了一種面向科技項目文本的相似度度量方法。該方法首先對文本進行預處理,其次根據文本的結構特征提取模塊文本,然后使用TF-IDF方法提取每個模塊文本的TOP-N關鍵詞, 作為模塊文本的特征向量表示,最后使用余弦聚類計算文本的相似度。實驗結果表明,在電力行業的科技項目文檔數據集上,所提方法優于TF-IDF方法。
中圖分類號: TP311
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.191420
中文引用格式: 趙曉平,馬文,劉雪萍,等. 一種面向科技項目文本的相似度度量方法[J].電子技術應用,2020,46(5):31-34,39.
英文引用格式: Zhao Xiaoping,Ma Wen,Liu Xueping,et al. A similarity measurement method for science and technology project text[J]. Application of Electronic Technique,2020,46(5):31-34,39.
A similarity measurement method for science and technology project text
Zhao Xiaoping1,Ma Wen1,Liu Xueping2,Chen Da2
1.Information Center,Yunnan Power Grid Co.,Ltd.,Kunming 650011,China; 2.Yunnan Yundian Tongfang Technology Co.,Ltd.,Kunming 650220,China
Abstract: Existing text similarity measurements often use the TF-IDF method to model texts as term frequency vectors without considering the structural features of texts. This paper combines the structural features of texts with the TF-IDF method and proposes a text similarity measurement for science and technology project texts. This approach firstly pre-processes a text and extracts module texts according to its structural features. After applying the TF-IDF method to these extracted module texts, this method extracts the top keywords of each module text, obtains its feature vector representation, and finally uses cosine formula to calculate the similarity of two texts. By comparing with the TF-IDF method, experimental results show that the proposed method can promote the evaluation metrics of F-measure.
Key words : text similarity;TF-IDF;text clustering;natural language process

0 引言

    文本相似度度量是指將文本看成一組詞的集合體,分析每個詞在文本中出現的次數以及在整個文本集合中出現次數,進而利用這些詞頻信息將文本建模為一個向量,并利用向量間的余弦距離等計算文本之間的相似度[1-2]

    文本相似度度量被廣泛應用于許多領域,例如:信息檢索領域[3-4]、文本分類[5-8]、文本摘要的自動生成[9-10]、文本的查重檢測[11-12]。本文關注的是在電力行業的科技項目查重中應用文本相似度度量。

    現有的TF-IDF[13-15]方法主要將文本建模為詞頻向量,再使用余弦相似度來計算兩個文本間的相似度。但是對于多數文本而言,這種采用詞頻向量模型的方法需要將文本表示為詞項數目與文本數目大致相當的矩陣,矩陣中的行列向量都有著非常高的維度并且是極度稀疏的,從而最終導致非常低效的計算[1,16]。此外,這種方法也忽略了文本的的結構特征。

    針對上述問題,本文提出一種既考慮了文本的結構特征,又能有效降低文本表示模型維度的文本相似度度量方法。給定兩個文本,通過文本所提方法能夠高效、準確地計算出兩者間的相似度,為電力行業科技項目的查重提供有效支撐。



論文詳細內容請下載http://www.jysgc.com/resource/share/2000002786




作者信息:

趙曉平1,馬  文1,劉雪萍2,陳  達2

(1. 云南電網有限責任公司 信息中心,云南 昆明 650011;2. 云南云電同方科技有限公司,云南 昆明 650220)

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 久久精品人人做人人爽电影蜜月| 天堂mv在线免费播放| 免费在线你懂的| 芭蕉私人影院在线观看| 国产欧美精品一区二区三区-老狼 国产欧美精品一区二区三区四区 国产欧美精品一区二区三区四区 国产欧美精品一区二区色综合 | 免费无码专区毛片高潮喷水| 美女扒开小内裤| 国产乱人伦app精品久久| 黑人极品videos精品欧美裸| 国产精品jizz在线观看直播| 69国产成人精品午夜福中文| 在线视频免费观看www动漫| 久久精品无码一区二区三区免费 | 男人j桶进女人j的视频| 午夜不卡av免费| 翁止熄痒禁伦短文合集免费视频| 国产亚洲欧美日韩俺去了| 黄色成年人视频| 国产成年无码v片在线| 69pao精品视频在线观看| 国产精品欧美一区二区三区| 97人人添人澡人人爽超碰| 大伊香蕉在线观看视频wap| loveme枫と铃樱花动漫| 嫩草成人永久免费观看| 久久精品免费观看| 最近中文字幕在线的mv视频| 亚洲国产成人久久一区www| 精品久久久久久中文| 国产剧情片视频资源在线播放| 国产成人福利免费视频| 夜夜影院未满十八勿进| jizz日本在线观看| 好吊视频一区二区三区| 一本大道道无香蕉综合在线| 日韩a一级欧美一级在线播放| 久久超碰97人人做人人爱| 欧美肥老太肥506070| 亚洲精品日韩专区silk| 美女的让男人桶爽网站| 国产av无码久久精品|