《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于MapReduce編程模型的TFIDF算法研究
基于MapReduce編程模型的TFIDF算法研究
來源:微型機與應用2013年第4期
趙偉燕1,王靜宇2
(1.內蒙古科技大學 信息工程學院,內蒙古 包頭014010; 2.內蒙古科技大學 信息辦與網絡中心
摘要: 隨著Internet等技術的飛速發展,信息處理已經成為人們獲取有用信息不可或缺的工具,如何在海量信息中高效地獲得有用信息至關重要,因此自動文本分類技術尤為重要。現有的文本分類算法在時間復雜性和空間復雜性上遇到瓶頸,不能滿足人們的需求,為此提出了基于Hadoop分布式平臺的TFIDF算法,給出了算法實現的具體流程,通過MapReduce編程實現了該算法,并在單機和集群模式下進行了對比實驗,同時與傳統串行算法進行了對比。實驗證明,使用TFIDF文本分類算法可實現對海量數據的高速有效分類。
Abstract:
Key words :

摘  要: 隨著Internet等技術的飛速發展,信息處理已經成為人們獲取有用信息不可或缺的工具,如何在海量信息中高效地獲得有用信息至關重要,因此自動文本分類技術尤為重要。現有的文本分類算法在時間復雜性和空間復雜性上遇到瓶頸,不能滿足人們的需求,為此提出了基于Hadoop分布式平臺的TFIDF算法,給出了算法實現的具體流程,通過MapReduce編程實現了該算法,并在單機和集群模式下進行了對比實驗,同時與傳統串行算法進行了對比。實驗證明,使用TFIDF文本分類算法可實現對海量數據的高速有效分類。
關鍵詞: 文本分類;MapReduce;并行化;TFIDF算法

    當今信息時代,數據膨脹的速度已遠遠超過人工分析它們的能力,如何在海量數據中快速地獲得所需信息至關重要,因此自動文本分類技術尤為重要。文本分類是指依據文本內容由計算機根據某種自動分類算法,把文本判定為預先定義好的類別[1]。文本分類是數據挖掘的關鍵技術,為了提高分類質量,首先要實現算法并行化。
    近幾十年來,一系列統計學習文本分類方法被提出[2],國內外對文本分類算法的研究很多,但大都存在一些局限性,特別是缺乏對海量文本數據的挖掘。云計算的出現為算法并行化帶來了新的契機,很多科研人員和機構都在投入研究云計算。Hadoop平臺發布以來,很多專業人員致力于利用它對海量數據進行挖掘,目前已經實現了一些基于該平臺的算法。本文研究TFIDF文本分類算法,并通過MapReduce編程,在單機和集群模式下研究TFIDF算法的并行化并進行實驗驗證,并與傳統算法進行對比實驗, 實驗表明,改進的算法提高了分類速度,有效地解決了海量數據的分類問題。
1 TFIDF算法的實現
    TFIDF是一種用于資訊檢索與資訊探勘的常用加權技術。在某一個特定的文檔中,詞頻(TF)指某一具體給定的詞語在這個文檔中出現的次數。對于在某一特定文檔里的詞語ti,其詞頻可以表示為:
 
    TFIDF算法是有監督的文本分類算法,它的訓練集是已標記的文檔,并且隨著訓練集規模的增大,分類效率、精度均顯著提高[6]。
2 MapReduce編程模型
    分布式文件系統(HDFS)和MapReduce編程模型是Hadoop的主要組成部分。Hadoop是一個能夠對大數據進行分布式處理的框架,能夠把應用程序分割成許多小的工作單元,并且把這些單元放到任何集群節點上執行[7]。MapReduce模型的計算流程如圖1所示。

    分布式文件系統主要負責各節點上的數據的存儲,并實現高吞吐的數據讀寫。MapReduce計算模型的核心部分是Map和Reduce兩個函數[8]。Map的輸入是in_key和in_value,指明了Map需要處理的原始數據。Map的輸出結果是一組<key,value>對。系統對Map操作的結果進行歸類處理。Reduce的輸入是(key,[value1… value m])。Reduce的工作是將相同key的value值進行歸并處理最終形成(key,final_value)的結果,所有的Reduce結果并在一起就是最終結果。其中HDFS和MapReduce的關系如圖2所示。

3 MapReduce編程模型下的TFIDF算法
3.1 TFIDF算法流程

    Hadoop分布式計算的核心思想就是任務的分割及并行運行。從TFIDF 的計算公式可看出, 它非常適合分布式計算求解。詞頻(TF)只與它所在文檔的單詞總數及它在此文檔出現的次數有關。因此,可以通過數據分割, 并行統計出文檔中的詞頻TF,加快計算速度。得到單詞詞頻TF 后,單詞權重TFIDF 的計算取決于包含此單詞的文檔個數。因此,只要能確定包含此單詞的文檔個數,即能以并行計算的方式實現TFIDF的求解。MapReduce下計算TFIDF 的整個處理流程如圖3所示。主要包括統計每份文檔中單詞的出現次數、統計TF及計算單詞的TFIDF值三個步驟。

 


Hadoop對數據進行的是分塊處理,并且默認數據塊大小為64 MB,所以當存在很多小數據文件時,反而降低了運行速度,因此對小數據集Hadoop的優越性體現得并不明顯。但是隨著數據集增大,傳統算法所需要的時間急劇增長,而應用了Hadoop框架的TFIDF算法所需要的時間只是呈線性增加,表現出了一定的算法優越性。
    (3)不同節點數下的對應運行時間
    圖5(a)和(b)分別顯示了Sogou文本分類語料庫隨著節點數目由1增加到4時的訓練時間和測試時間曲線。
    本文通過在Hadoop平臺下的MapReduce編程,對傳統TFIDF算法進行了性能優化,并通過3組對比實驗,驗證了改進的TFIDF算法可取得更好的分類結果,可以很好地實現對海量數據的高效挖掘。

參考文獻
[1] SEBASTIANI F.Text categorization[Z].Encyclopedia of  Database Techologies and Applications,2005:683-687.
[2] Yang Yiming.An evaluation of statistical approaches to text categorizationg[J].Journal of Information Retrieval,1999,1(1/2):67-68.
[3] 謝鑫軍, 何志均.一種單一表單工作流系統的設計和實現[J].計算機工程,1988,24(9):53-55.
[4] 王宇.基于TFIDF的文本分類算法研究[D].鄭州:鄭州大學,2006.
[5] 向小軍,高陽,商琳,等.基于Hadoop平臺的海量文本分類的并行化[J].計算機科學,2011,38(10):190-194.
[6] 搜狐研發中心.Sogou文本分類語料庫[OL].(2008-09)[2012-09-30].http://www.sogou.com/labs/dl/c.html.
[7] 劉鵬.實戰Hadoop-開啟通向云計算的捷徑[M].北京:電子工業出版社,2011.
[8] 李彬.基于Hadoop框架的TF- IDF算法改進[J].微型機與應用,2012,31(7):14-16.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美在线|欧美| 欧美日韩欧美一区二区| 99精品免费| 亚洲韩日在线| 亚洲一二三四区| 亚洲视频中文| avtt综合网| 一本色道88久久加勒比精品| 亚洲激情av在线| 亚洲国产老妈| 亚洲成人在线免费| 亚洲香蕉网站| 一区二区激情视频| 亚洲精品久久久久久下一站| 欧美在线视频网站| 午夜在线a亚洲v天堂网2018| 亚洲在线视频网站| 亚洲欧美综合另类中字| 亚洲制服av| 亚洲欧美激情视频在线观看一区二区三区 | 久久久天天操| 久久久噜噜噜久噜久久| 亚洲欧美日韩成人高清在线一区| 国产精品美女久久久久久2018| 国产精品v欧美精品v日韩| 欧美日韩在线播放| 国产精品国产三级国产aⅴ入口| 国产精品第十页| 国产精品一区久久久| 国产日韩欧美另类| 国产在线高清精品| 亚洲高清视频一区二区| 亚洲美女色禁图| 亚洲视频欧洲视频| 性欧美暴力猛交69hd| 久久精品视频99| 亚洲三级免费观看| 一本久久综合亚洲鲁鲁| 亚洲在线免费观看| 久久精品一区| 欧美电影打屁股sp| 欧美三级电影大全| 国产乱理伦片在线观看夜一区| 国产欧美日韩另类视频免费观看 | 黄色另类av| 亚洲国产精品尤物yw在线观看| 亚洲美洲欧洲综合国产一区| 亚洲五月六月| 久久精品成人| 夜夜爽夜夜爽精品视频| 亚洲欧美电影院| 久久久天天操| 欧美日本久久| 国产精品一区在线观看| 在线播放精品| 一区二区三区高清在线| 欧美伊人久久久久久午夜久久久久| 亚洲欧洲精品天堂一级| 亚洲在线视频免费观看| 麻豆成人综合网| 欧美手机在线| 韩国一区二区三区美女美女秀| 亚洲人精品午夜| 亚洲欧美日韩精品久久久| 91久久精品国产91性色tv| 欧美四级在线观看| 亚洲人成在线观看一区二区| 一本色道久久综合亚洲精品小说| 午夜日韩在线| 日韩特黄影片| 久久久免费观看视频| 欧美片在线观看| 国产无遮挡一区二区三区毛片日本| 亚洲国产精品成人| 香蕉久久精品日日躁夜夜躁| 日韩亚洲精品视频| 久久国产精品一区二区| 亚洲第一福利社区| 亚洲电影自拍| 亚洲视频精选| 亚洲精品极品| 久久aⅴ国产欧美74aaa| 欧美久久久久久久久久| 国产一级一区二区| 一本久道久久综合婷婷鲸鱼 | 9l视频自拍蝌蚪9l视频成人| 久久激情视频久久| 亚洲欧美在线x视频| 欧美国产三级| 国产一区二区精品久久99| 一区二区三区蜜桃网| 亚洲欧洲美洲综合色网| 久久精品五月婷婷| 国产精品久久久久久久久| 亚洲日本欧美日韩高观看| 欧美呦呦网站| 欧美亚洲在线播放| 欧美日韩三级在线| 亚洲第一精品久久忘忧草社区| 性色av香蕉一区二区| 亚洲午夜一区二区三区| 欧美精品一区二区三| 在线成人h网| 欧美影片第一页| 欧美伊人久久久久久久久影院| 欧美日精品一区视频| 亚洲精品国产精品乱码不99按摩| 久久精品国产一区二区三区| 欧美在线日韩在线| 国产精品青草久久久久福利99| 99亚洲伊人久久精品影院红桃| 亚洲人成网站999久久久综合 | 久久一日本道色综合久久| 国产日韩精品一区观看| 亚洲综合色视频| 亚洲主播在线| 亚洲尤物在线视频观看| 欧美在线视频一区二区| 亚洲亚洲精品三区日韩精品在线视频| 欧美极品aⅴ影院| 亚洲国产午夜| 日韩一二三区视频| 欧美激情亚洲一区| 亚洲美女免费精品视频在线观看| 999在线观看精品免费不卡网站| 欧美激情一区二区三区不卡| 亚洲人成精品久久久久| 亚洲免费大片| 欧美日韩国产999| 一本大道av伊人久久综合| 亚洲一区二区三区四区视频| 国产精品v日韩精品v欧美精品网站| 日韩手机在线导航| 亚洲一区二区三区午夜| 国产精品狠色婷| 亚洲在线黄色| 久久成人精品电影| 国产主播在线一区| 亚洲狠狠婷婷| 欧美极品在线视频| 野花国产精品入口| 午夜精品久久99蜜桃的功能介绍| 国产精品久久毛片a| 亚洲欧美另类国产| 久久久久这里只有精品| 亚洲电影专区| 中国成人黄色视屏| 国产精品日韩在线| 久久成人一区| 欧美精品一区二区三区视频| 一区二区三区欧美激情| 欧美在线亚洲在线| 黄色一区二区三区四区| 亚洲美女精品久久| 国产精品r级在线| 欧美一区二区精品在线| 免费91麻豆精品国产自产在线观看| 亚洲国产婷婷香蕉久久久久久99| 一本色道久久综合亚洲精品按摩 | 亚洲在线视频一区| 久久一区二区视频| 亚洲精品一区二区三区四区高清| 亚洲欧美日韩精品综合在线观看 | 经典三级久久| 小嫩嫩精品导航| 欧美日韩三区四区| 亚洲一区二区免费视频| 欧美在线观看视频| 一本一本a久久| 亚洲三级免费电影| 欧美精品尤物在线| 一本色道久久综合精品竹菊 | 亚洲大胆女人| 欧美77777| av成人毛片| 久久免费偷拍视频| 亚洲欧洲另类国产综合| 亚洲欧美激情一区| 尤物九九久久国产精品的特点| 亚洲视频在线看| 国自产拍偷拍福利精品免费一| 一区二区高清视频| 国产亚洲激情视频在线| 妖精成人www高清在线观看| 国产亚洲毛片| 一本色道久久综合亚洲精品小说 | 久久精品视频播放| 亚洲精品美女久久久久| 久久精品夜夜夜夜久久| 日韩视频免费在线观看| 久久久久久久久久久久久久一区 | 国产区二精品视| 亚洲看片免费| 国产亚洲激情| 亚洲欧美国产精品桃花| 亚洲区免费影片| 可以看av的网站久久看| 亚洲欧美日韩久久精品 | 在线成人av.com| 久久精品72免费观看|