《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 改進(jìn)的TF-IDF算法在文本分類中的研究
改進(jìn)的TF-IDF算法在文本分類中的研究
信息技術(shù)與網(wǎng)絡(luò)安全
張 偉1,2,石 倩1,何 霄1,王 晨1,李禾香1,李驥然1
(1.中國(guó)石油工程技術(shù)研究院有限公司 北京石油機(jī)械有限公司,北京102206; 2.中國(guó)人民大學(xué) 信息學(xué)院,北京100872)
摘要: 企業(yè)數(shù)字化建設(shè)過程中,對(duì)大量日常經(jīng)營(yíng)活動(dòng)文本的數(shù)字化處理通常是多任務(wù)的,需要對(duì)文本數(shù)據(jù)同時(shí)完成信息抽取和文本分類任。在此應(yīng)用場(chǎng)景下,為了實(shí)現(xiàn)更加精準(zhǔn)的分類效果,提出一種改進(jìn)的TF-IDF算法,將文本信息抽取結(jié)果也作為文本重要類別區(qū)分特征。通過引入信息增益方法得到改進(jìn)的權(quán)重計(jì)算公式,進(jìn)而得到改進(jìn)的文本特征向量空間表示,再構(gòu)建文本分類模型。實(shí)驗(yàn)以石油行業(yè)中文文本為例,選取測(cè)試文本2 006條進(jìn)行文本分類對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明改進(jìn)的TF-IDF算法精確率P達(dá)到99.3%,召回率R達(dá)到98.7%,相比于傳統(tǒng)TF-IDF算法文本分類效果得到顯著提高。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.07.012
引用格式: 張偉,石倩,何霄,等. 改進(jìn)的TF-IDF算法在文本分類中的研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(7):72-76,83.
Research on improved TF-IDF algorithm in text classification
Zhang Wei1,2,Shi Qian1,He Xiao1,Wang Chen1,Li Hexiang1,Li Jiran1
(1.Beijing Petroleum Machinery Co.,Ltd.,China Petroleum Engineering Technology Research Institute, Beijing 102206,China; 2.School of Information,Renmin University of China,Beijing 100872,China)
Abstract: In the process of digital construction of enterprises, the digital processing of a large number of daily business activity texts of enterprises is usually multi-task, and it is necessary to complete information extraction tasks and text classification tasks for text data at the same time. In this application scenario, in order to achieve a more accurate text classification effect, this paper proposes an improved TF-IDF algorithm, which uses the text information extraction result as the distinguishing feature of important text categories, and introduces the information gain method to obtain an improved weight calculation formula. Then an improved text feature vector space representation is obtained, and then a text classification model is constructed. The experiment takes the Chinese text of the petroleum industry as an example, and selects 2 006 test texts for text classification comparison experiments. The experimental results show that the improved TF-IDF algorithm has an accuracy rate P of 99.99% and a recall rate R of 99.87%. The algorithm text classification effect has been significantly improved.
Key words : text classification;VSM;TF-IDF;petroleum;support vector machine

0 引言

TF-IDF算法結(jié)構(gòu)簡(jiǎn)單,類別區(qū)分力強(qiáng),且容易實(shí)現(xiàn),被廣泛應(yīng)用于信息檢索、文本挖掘、文本分類、信息抽取等領(lǐng)域中。但是,該算法僅考慮詞頻方面的因素,沒有考慮詞語(yǔ)出現(xiàn)的位置、詞性、樣本分布等信息,存在一定局限性。對(duì)此很多研究者都提出過改進(jìn)算法,王小林在傳統(tǒng)TF-IDF算法基礎(chǔ)上,提出利用段落標(biāo)注技術(shù),對(duì)處于不同位置的詞語(yǔ)給予不同的位置權(quán)重,并對(duì)分詞結(jié)果中詞頻較高的同詞性詞語(yǔ)進(jìn)行相似度計(jì)算,合并相似度較高的詞語(yǔ),改進(jìn)傳統(tǒng)算法中忽視特征詞位置因素和語(yǔ)義對(duì)相似度的問題[1]。覃世安針對(duì)傳統(tǒng)TF-IDF算法在分類文本類的數(shù)量分布不均時(shí)提取特征值效果差的問題,提出使用特征值在類間出現(xiàn)的概率比代替特征值在類間出現(xiàn)次數(shù)的改進(jìn)TF-IDF算法[2]。葉雪梅認(rèn)為傳統(tǒng)的特征詞權(quán)重TF-IDF算法未考慮到網(wǎng)絡(luò)新詞,針對(duì)特征項(xiàng)中的新詞對(duì)分類結(jié)果的影響給予不同權(quán)重值,提出基于網(wǎng)絡(luò)新詞改進(jìn)文本分類TF-IDF算法[3]。這些改進(jìn)算法都有效提高了模型性能,優(yōu)化分類結(jié)果,取得了不錯(cuò)的實(shí)驗(yàn)效果。但以往改進(jìn)算法研究主要集中在通過完善算法本身的缺陷以實(shí)現(xiàn)詞條在文本中更加準(zhǔn)確的權(quán)重賦值,忽略了其他類別區(qū)分特征因子。



本文詳細(xì)內(nèi)容請(qǐng)下載:http://www.jysgc.com/resource/share/2000003681




作者信息:

張  偉1,2,石  倩1,何  霄1,王  晨1,李禾香1,李驥然1

(1.中國(guó)石油工程技術(shù)研究院有限公司 北京石油機(jī)械有限公司,北京102206;

2.中國(guó)人民大學(xué) 信息學(xué)院,北京100872)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
久久精品首页| 日韩视频免费在线| 91久久国产综合久久| 国产小视频国产精品| 国产精品另类一区| 欧美日韩在线观看视频| 欧美国产精品一区| 欧美成人精品1314www| 免费观看成人| 久久在线91| 久久一区欧美| 免费不卡在线视频| 欧美阿v一级看视频| 欧美成人高清| 欧美精品videossex性护士| 欧美国产精品v| 欧美国产日韩视频| 欧美精品三区| 欧美三级电影精品| 国产精品卡一卡二| 国产欧美日本一区视频| 国产亚洲视频在线| 伊人久久婷婷| 最新国产成人av网站网址麻豆| 亚洲国产一区二区三区青草影视| 亚洲激情在线观看| 亚洲美女啪啪| 亚洲在线观看| 久久精品日产第一区二区三区 | 亚洲蜜桃精久久久久久久| 日韩视频在线一区二区三区| 99精品视频一区二区三区| 中文在线资源观看网站视频免费不卡 | 欧美高清视频一区| 欧美色精品天天在线观看视频| 国产精品v欧美精品v日韩精品 | 欧美一区二区三区免费大片| 亚洲高清色综合| 日韩午夜中文字幕| 亚洲欧美伊人| 久久综合久久综合久久| 欧美激情一区二区三区成人| 欧美视频一区二区| 国产一区久久久| 亚洲激情一区二区| 亚洲欧美变态国产另类| 亚洲国产精品欧美一二99| 日韩视频一区二区三区在线播放| 亚洲一区二区三区四区五区午夜| 欧美一区二区在线观看| 免费日韩成人| 国产精品va在线| 精品不卡在线| 中文久久乱码一区二区| 久久精品av麻豆的观看方式 | 欧美午夜激情视频| 国产一区自拍视频| 亚洲精品韩国| 性视频1819p久久| 日韩视频在线观看免费| 欧美亚洲一级片| 欧美成人亚洲成人| 国产噜噜噜噜噜久久久久久久久 | 欧美日韩亚洲一区在线观看| 国产亚洲成av人片在线观看桃| 亚洲黄色在线看| 亚洲欧美大片| 99热在线精品观看| 久久久噜噜噜久久久| 欧美三级视频在线| 国产精品jizz在线观看美国| 亚洲午夜电影在线观看| 久久久久久穴| 国产精品高潮呻吟久久| 亚洲成人直播| 亚洲欧美另类在线观看| 日韩视频中文字幕| 久久久久久91香蕉国产| 欧美午夜视频| 亚洲国产一区二区a毛片| 欧美一区二区三区日韩视频| 一区二区三区回区在观看免费视频| 久久精品国产99国产精品澳门| 欧美日韩国产美女| 一区二区在线观看视频在线观看| 亚洲桃色在线一区| 亚洲蜜桃精久久久久久久| 久久国产欧美| 国产精品久久久对白| 亚洲欧洲日本一区二区三区| 久久精品国产成人| 欧美影视一区| 国产精品v欧美精品v日韩| 亚洲国产精品第一区二区| 欧美怡红院视频一区二区三区| 亚洲一区二区三区四区中文| 欧美国产第一页| 伊人久久婷婷色综合98网| 午夜在线a亚洲v天堂网2018| 亚洲永久精品大片| 欧美日韩国产色综合一二三四| 一区在线免费| 性做久久久久久免费观看欧美| 亚洲小说欧美另类婷婷| 欧美日韩成人在线播放| 亚洲国产精品久久久久婷婷老年 | 国产精品久久久久久av下载红粉| 亚洲欧洲精品一区二区三区波多野1战4 | 国产精品av久久久久久麻豆网| 91久久视频| 亚洲区欧美区| 老司机成人网| 黄色成人av在线| 久久激五月天综合精品| 久久精品官网| 国产最新精品精品你懂的| 久久色中文字幕| 国产无一区二区| 国产一区二区三区四区在线观看 | 在线观看欧美亚洲| 亚洲成色777777女色窝| 久久精品国产清高在天天线| 国产精品午夜av在线| 一本色道久久88综合日韩精品| 夜夜嗨av一区二区三区中文字幕| 亚洲欧美中文日韩v在线观看| 欧美性一二三区| 一区二区高清在线观看| 中日韩视频在线观看| 欧美日韩情趣电影| 日韩网站免费观看| 在线观看亚洲视频| 性欧美xxxx大乳国产app| 亚洲一区二区三区四区五区午夜 | 亚洲专区一二三| 亚洲免费高清| 欧美三日本三级少妇三2023| 这里只有精品丝袜| 亚洲一二三区在线| 国产精品亚洲成人| 欧美一区二区大片| 久久久另类综合| 亚洲国产精品一区二区第四页av| 日韩一区二区免费高清| 欧美日韩一区三区| 在线一区二区三区四区| 欧美一区二区在线看| 精品成人一区二区| 午夜久久久久| 欧美不卡视频| 亚洲福利视频专区| 正在播放亚洲一区| 国产精品自拍一区| 亚洲国产99| 亚洲综合久久久久| 久久性色av| 亚洲黑丝一区二区| 亚洲影院污污.| 国产一区二区三区黄视频| 亚洲福利视频三区| 欧美伦理91| 午夜亚洲伦理| 欧美福利一区| 亚洲综合99| 欧美www视频| 亚洲永久免费| 欧美jizzhd精品欧美巨大免费| 夜夜嗨av一区二区三区网页| 性做久久久久久久久| 在线观看的日韩av| 亚洲一区二区黄色| 红桃av永久久久| 这里只有精品视频在线| 国产一区自拍视频| 亚洲视频精选| 狠狠v欧美v日韩v亚洲ⅴ| 在线一区二区三区四区五区| 国产亚洲第一区| 亚洲视频一区| 激情综合五月天| 亚洲欧美99| 亚洲国产精品久久久久秋霞影院 | 久久久精品网| 亚洲精品一区在线观看| 欧美在线观看一二区| 亚洲国产婷婷| 欧美一区二区视频免费观看| 亚洲国产专区校园欧美| 欧美中文字幕第一页| 亚洲毛片av| 麻豆9191精品国产| 亚洲自拍偷拍视频| 欧美激情精品| 欧美在线亚洲一区| 欧美午夜不卡视频| 亚洲精品国产精品乱码不99| 国产欧美一区二区精品秋霞影院| 这里只有精品丝袜| 亚洲福利视频一区| 久久理论片午夜琪琪电影网|