《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 一種面向科技項目文本的相似度度量方法
一種面向科技項目文本的相似度度量方法
2020年電子技術(shù)應(yīng)用第5期
趙曉平1,馬 文1,劉雪萍2,陳 達(dá)2
1. 云南電網(wǎng)有限責(zé)任公司 信息中心,云南 昆明 650011;2. 云南云電同方科技有限公司,云南 昆明 650220
摘要: 現(xiàn)有的文本相似度度量方法主要采用TF-IDF方法,把文本建模為詞頻向量,但未考慮文本的結(jié)構(gòu)特征。現(xiàn)將文本的結(jié)構(gòu)特征和TF-IDF方法進(jìn)行融合,提出了一種面向科技項目文本的相似度度量方法。該方法首先對文本進(jìn)行預(yù)處理,其次根據(jù)文本的結(jié)構(gòu)特征提取模塊文本,然后使用TF-IDF方法提取每個模塊文本的TOP-N關(guān)鍵詞, 作為模塊文本的特征向量表示,最后使用余弦聚類計算文本的相似度。實驗結(jié)果表明,在電力行業(yè)的科技項目文檔數(shù)據(jù)集上,所提方法優(yōu)于TF-IDF方法。
中圖分類號: TP311
文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.191420
中文引用格式: 趙曉平,馬文,劉雪萍,等. 一種面向科技項目文本的相似度度量方法[J].電子技術(shù)應(yīng)用,2020,46(5):31-34,39.
英文引用格式: Zhao Xiaoping,Ma Wen,Liu Xueping,et al. A similarity measurement method for science and technology project text[J]. Application of Electronic Technique,2020,46(5):31-34,39.
A similarity measurement method for science and technology project text
Zhao Xiaoping1,Ma Wen1,Liu Xueping2,Chen Da2
1.Information Center,Yunnan Power Grid Co.,Ltd.,Kunming 650011,China; 2.Yunnan Yundian Tongfang Technology Co.,Ltd.,Kunming 650220,China
Abstract: Existing text similarity measurements often use the TF-IDF method to model texts as term frequency vectors without considering the structural features of texts. This paper combines the structural features of texts with the TF-IDF method and proposes a text similarity measurement for science and technology project texts. This approach firstly pre-processes a text and extracts module texts according to its structural features. After applying the TF-IDF method to these extracted module texts, this method extracts the top keywords of each module text, obtains its feature vector representation, and finally uses cosine formula to calculate the similarity of two texts. By comparing with the TF-IDF method, experimental results show that the proposed method can promote the evaluation metrics of F-measure.
Key words : text similarity;TF-IDF;text clustering;natural language process

0 引言

    文本相似度度量是指將文本看成一組詞的集合體,分析每個詞在文本中出現(xiàn)的次數(shù)以及在整個文本集合中出現(xiàn)次數(shù),進(jìn)而利用這些詞頻信息將文本建模為一個向量,并利用向量間的余弦距離等計算文本之間的相似度[1-2]

    文本相似度度量被廣泛應(yīng)用于許多領(lǐng)域,例如:信息檢索領(lǐng)域[3-4]、文本分類[5-8]、文本摘要的自動生成[9-10]、文本的查重檢測[11-12]。本文關(guān)注的是在電力行業(yè)的科技項目查重中應(yīng)用文本相似度度量。

    現(xiàn)有的TF-IDF[13-15]方法主要將文本建模為詞頻向量,再使用余弦相似度來計算兩個文本間的相似度。但是對于多數(shù)文本而言,這種采用詞頻向量模型的方法需要將文本表示為詞項數(shù)目與文本數(shù)目大致相當(dāng)?shù)木仃嚕仃囍械男辛邢蛄慷加兄浅8叩木S度并且是極度稀疏的,從而最終導(dǎo)致非常低效的計算[1,16]。此外,這種方法也忽略了文本的的結(jié)構(gòu)特征。

    針對上述問題,本文提出一種既考慮了文本的結(jié)構(gòu)特征,又能有效降低文本表示模型維度的文本相似度度量方法。給定兩個文本,通過文本所提方法能夠高效、準(zhǔn)確地計算出兩者間的相似度,為電力行業(yè)科技項目的查重提供有效支撐。



論文詳細(xì)內(nèi)容請下載http://www.jysgc.com/resource/share/2000002786




作者信息:

趙曉平1,馬  文1,劉雪萍2,陳  達(dá)2

(1. 云南電網(wǎng)有限責(zé)任公司 信息中心,云南 昆明 650011;2. 云南云電同方科技有限公司,云南 昆明 650220)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
久久精品道一区二区三区| 欧美激情国产高清| 91久久亚洲| 欧美一区二区三区在线观看| 亚洲综合不卡| 亚洲视频在线观看免费| 99综合在线| 亚洲麻豆视频| 日韩视频一区二区在线观看 | 一区二区三区av| 亚洲精品视频在线| 91久久久亚洲精品| 亚洲精品视频在线观看免费| 日韩视频在线免费| av成人老司机| 亚洲视频免费观看| 亚洲香蕉在线观看| 亚洲视频一区在线| 午夜精品久久久久久久99樱桃 | 欧美中文字幕在线| 欧美在线日韩精品| 亚洲国产精品成人va在线观看| 亚洲国产欧美一区| 亚洲精品国精品久久99热| 亚洲精品国产精品国自产在线 | 久久精品视频播放| 久久久久久久综合| 美女黄毛**国产精品啪啪| 欧美成人一二三| 欧美日韩国产不卡| 老司机久久99久久精品播放免费 | 午夜精品免费在线| 欧美一级一区| 亚洲国产欧美在线| 亚洲毛片在线看| 一区二区三区四区蜜桃| 亚洲综合国产精品| 久久黄色网页| 免费中文字幕日韩欧美| 国产精品v欧美精品v日韩| 久久激情综合| 日韩一级片网址| 亚洲一区二区免费| 性欧美videos另类喷潮| 久久免费视频网| 欧美国产欧美亚洲国产日韩mv天天看完整| 欧美理论电影网| 国产精品嫩草影院一区二区| 精品91免费| 亚洲美女视频网| 亚洲在线中文字幕| 亚洲国产精品久久久久婷婷884| 一区二区三区免费观看| 欧美在线网站| 欧美激情精品久久久久久大尺度| 国产精品激情av在线播放| 国内精品国产成人| 一区二区三区高清| 欧美在线免费观看| 中国av一区| 久久性天堂网| 欧美午夜精品一区| 狠色狠色综合久久| 一区二区三区国产精品| 久久精品2019中文字幕| 亚洲网站在线看| 老司机久久99久久精品播放免费| 国产精品高清一区二区三区| 亚洲高清视频中文字幕| 亚洲在线一区| 一区二区三区回区在观看免费视频| 欧美一区永久视频免费观看| 欧美日韩大片一区二区三区| 激情欧美一区二区| 亚洲综合第一| 一本久久综合亚洲鲁鲁| 久久久久88色偷偷免费| 欧美视频一区二| 亚洲国产你懂的| 久久成人精品| 午夜精品久久久99热福利| 欧美精品国产一区| 激情成人中文字幕| 亚洲欧美日本精品| 国产精品99久久久久久www| 美女精品在线| 国产午夜精品视频| 亚洲影视九九影院在线观看| 99re66热这里只有精品4| 久久久久久亚洲精品不卡4k岛国| 欧美性一区二区| 亚洲欧洲一级| 亚洲国产日韩美| 久久精品视频在线| 国产精品剧情在线亚洲| 最近中文字幕日韩精品 | 亚洲欧美美女| 国产精品久久久久久久久久久久久| 久久精品国产999大香线蕉| 欧美涩涩视频| 亚洲日本视频| 亚洲国产黄色| 久久综合伊人| 国产一区自拍视频| 欧美一级专区| 久久国产精品第一页| 国产乱子伦一区二区三区国色天香| 一区二区三区免费在线观看| 日韩午夜在线播放| 欧美大片网址| 在线欧美日韩| 亚洲国产日韩在线一区模特| 久久久久综合一区二区三区| 国产在线一区二区三区四区 | 久久av红桃一区二区小说| 欧美一区2区三区4区公司二百| 国产精品成人免费| 在线视频亚洲一区| 亚洲一区在线免费观看| 国产精品成人aaaaa网站| 中文久久精品| 亚洲图片欧美日产| 欧美视频日韩视频| 在线视频精品一区| 亚洲伊人伊色伊影伊综合网| 国产精品久久久久久久久免费樱桃 | 国产精品女主播在线观看| 亚洲一区二区三区精品视频| 午夜精品福利一区二区蜜股av| 国产精品夫妻自拍| 亚洲欧美精品伊人久久| 久久成人这里只有精品| 国产原创一区二区| 久久gogo国模裸体人体| 美女在线一区二区| 亚洲黄色大片| 国产精品99久久久久久久vr| 欧美午夜欧美| 亚洲女人天堂成人av在线| 久久国产精品99久久久久久老狼| 国产一区二区日韩| 亚洲国产精品久久久| 欧美日本韩国一区| 一区二区三区精品在线| 久久av一区二区三区亚洲| 在线播放日韩专区| 一个人看的www久久| 国产精品久久77777| 性感少妇一区| 欧美1区2区3区| 黄色欧美日韩| 久久精品一区二区三区四区| 久久综合给合| 亚洲人成在线观看| 亚洲欧美日韩另类精品一区二区三区| 国产日产欧美精品| 亚洲国产一区二区在线| 欧美日韩免费一区二区三区| 亚洲欧美日韩精品久久久| 久久午夜激情| 日韩视频中文| 久久精品亚洲一区二区三区浴池| 亚洲国产精品一区在线观看不卡| 亚洲免费一区二区| 狠狠干综合网| 亚洲天堂免费在线观看视频| 国产亚洲视频在线观看| 日韩视频精品在线| 国产欧美精品日韩精品| 最新国产拍偷乱拍精品| 国产精品欧美精品| 亚洲日韩欧美视频一区| 国产精品私人影院| 亚洲精品一区二区三区福利| 国产精品一区久久久| 日韩视频精品在线| 国产亚洲综合性久久久影院| 一本久道久久综合中文字幕| 国产一区免费视频| 亚洲一区二区精品| 樱桃视频在线观看一区| 性久久久久久久久| 最新亚洲激情| 久久免费视频网站| 亚洲视频免费观看| 欧美暴力喷水在线| 午夜性色一区二区三区免费视频| 欧美精品免费看| 久久成人亚洲| 国产精品色网| 99xxxx成人网| 激情综合自拍| 午夜精品久久久久久久久久久久久 | 亚洲精品日产精品乱码不卡| 久久国产66| av72成人在线| 欧美国产一区二区在线观看 | 午夜精品美女久久久久av福利| 亚洲人精品午夜| 久热爱精品视频线路一|