《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于權重的流數據頻繁項挖掘算法的應用
基于權重的流數據頻繁項挖掘算法的應用
來源:微型機與應用2011年第2期
楊 立
運城學院 公共計算機教學部,山西 運城044000
摘要: 針對Lossy Counting算法,即一個基于計數的確定性方案,提出一種新的基于權重的流數據頻繁項挖掘算法(Lossy Weight),擴展了流數據頻繁項的作用域。Lossy Weight算法不僅可用于傳統的基于計數的頻繁項挖掘,還可以挖掘出在整個流數據中所占權重比重大于門檻值的數據。實驗數據分析證明該方案是有效的。
Abstract:
Key words :

摘  要: 針對Lossy Counting算法,即一個基于計數的確定性方案,提出一種新的基于權重的流數據頻繁項挖掘算法(Lossy Weight),擴展了流數據頻繁項的作用域。Lossy Weight算法不僅可用于傳統的基于計數的頻繁項挖掘,還可以挖掘出在整個流數據中所占權重比重大于門檻值的數據。實驗數據分析證明該方案是有效的。
關鍵詞: 頻繁項;數據挖掘;權值

    基于計數的頻繁項挖掘算法適用于每個數據元組所含知識相等或近似的情況,例如用戶在網頁上的點擊流,搜索引擎的關鍵詞流、路由器上的IP包流等情況。但在更多的情況下,每個事務代表的知識是不相等的。如電信系統中的通話記錄,每個用戶的電話用時是不相同的;在證券交易中心,每筆交易的金額也是不同的。許多小客戶的事務數多,但每筆事務的權值很小;重要的大客戶事務數雖少,但每筆事務的權值很大。如果此時用原有的頻繁項挖掘算法,將不能很好地體現那些事務數少但重要性高的客戶。而采用新的基于權重的算法,則可以很好地找出那些重要性高的元素。
    本文提出的基于權重的新算法是對原有Lossy Counting[1]的擴展。不僅可以解決基于計數的頻繁項挖掘問題,還能解決基于權重的頻繁項挖掘問題。并且Lossy Counting算法本質上是新算法的一個特例(窗口定長,權值為1)。新算法在應用域上超出了原有算法,甚至可支持基于計數與權重的混合查詢。

2 Lossy Weight算法
    本文提出的基于權重的頻繁項挖掘算法(Lossy Weight Algorithm)與原有算法有著相同的定義:根據用戶定義的門檻參數s∈(0,1),輸出在整個流數據中所占權重比重大于s的所有元素。
    新算法同樣滿足實時性的要求。在任意時間內,用戶都可以提交查詢,算法的結果滿足以下的要求:(1)數據所有占權重比超過s的元素都被輸出;(2)所有占權重比小于s-ε都不會被輸出;(3)權重頻繁項的誤差至多為ε。
    新的算法保持了原有的Lossy Counting實現簡單、處理速度快的特點。同樣地,在誤差的精確控制上有這樣兩個特點[2]:(1)存在誤報可能(false positive);(2)誤報的誤差可控制。

2.2 新算法的優勢
    在Lossy Counting算法的基礎上改進的Lossy Weight算法保留了原有算法處理效率高、占用空間少、誤差精確可控的優點。同樣地,算法實現簡明,很容易應用到實踐當中。新算法包含了原有的Lossy Counting算法,具有更大的靈活性。新算法可根據實際情況劃分窗口,時間窗口大小靈活可變。Lossy Counting算法的時間窗口不可變,事實上就是窗口大小為、權值為1時的Lossy Weight算法的特例。通過靈活地選取窗大小,新的Lossy Weight算法可以得到更好的內存占用情況。
3 Lossy Weight算法的實驗分析
3.1 Lossy Weight算法的特性實驗

    本文采用國泰君安CSMAR(China Stock Market Ac-
counting Research)系列數據庫中的中國股票交易高頻數據庫作為實驗數據[3]。本實驗采用了上海證券交易所2009年12月5日~12月7日三天的股票交易高頻數據。日均20萬條交易記錄,總計為590 233條交易計錄。在流數據頻繁項挖掘實驗中,將數據按時間排序,并模擬其實時到達的特性,對送達流數據處理引擎進行頻繁項挖掘。
    對整個交易日所有個股的交易信息采用LW算法進行數據處理,對交易量所占比重大于l%的個股進行頻繁項挖掘,然后對內存使用情況進行分析。原有的LC算法不能處理帶權重的挖掘任務。在實驗中,定義了不同窗口大小,并對其進行了分析。
    圖1所示實驗是在s=l%、ε=0.1%情況下,截取交易日前5 000個數據的內存使用情況進行對比。實驗顯示,LW算法的窗口尺寸越小,裁剪次數越頻繁,則內存使用效果越好。但過多的裁剪無疑會加大系統的負荷。所以可以根據系統的負載大小來合理地確定窗口寬度。LW算法中窗口尺寸的可伸縮性使得算法適應能力更強。

    LW算法的內存占用情況取決于窗口尺寸和錯誤容許度s的大小。容許的錯誤度越大,內存使用情況就越好。在窗口大小相等的情況下,對不同的錯誤容許度進行頻繁項挖掘。
    圖2顯示了在相同窗口大小(width=1 000)情況下,不同ε的內存占用情況。實驗顯示,LW算法對內存空間的需求與誤差ε-1近似成正比。因此,在不影響最終決策的前提下,錯誤容許度ε越大越好。

3.2 LW算法對LC算法的對比實驗
    Lossy Weight算法是對Lossy Counting算法的改進。在應用上有更廣的范圍,在原有的問題領域,新算法同樣占有優勢。LC算法的窗口大小是固定的ε-1,LW算法的窗口是動態的,可以應對任意窗口大小。這就可以面對更復雜的應用情況。在數據流量大時,擴大窗口尺寸,能起到批處理的效能。當系統較空閑時,減少窗口尺寸,以得到更好的內存使用情形。
    如圖3所示,在實驗中,截取交易日前5 000個數據的內存使用情況進行對比。實驗設置LW窗口大小為LC大小的一半。在第一個窗口,可以看到LW算法與LC算法的內存占用是相同的。但到窗口邊沿時,裁剪后的內存占用得到明顯的下降。通過對整個流的處理對比,可以明顯地看出LW算法具有更好的內存使用情況。

    本文提出了一種新的基于權重的流數據頻繁項挖掘算法。擴展了流數據頻繁項的作用域。Lossy Weight算法不僅可用于傳統的基于計數的頻繁項挖掘,還可以挖掘出在整個流數據中所占權重比重大于門檻值的數據。
參考文獻
[1] MANKU Q S,MOTWANI R.Approximate frequency counts over data streams[C].Proc.of the 28th Intl.Conf.on VeD,Large Data Bases.Hongkong:MorganKaufmann,2002:346-357.
[2] 潘云鶴,王金龍,徐從富.數據流頻繁模式挖掘研究進展[J].自動化學報,2006,32(4):594-602.
[3] 朱世武,嚴玉星.金融數據庫[M].北京:清華大學出版社,2007:12-14.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲天堂网站在线观看视频| 久久影视三级福利片| 欧美一级二区| 一本色道久久综合亚洲精品按摩| 亚洲午夜一二三区视频| 亚洲国产女人aaa毛片在线| 一本大道久久精品懂色aⅴ| 亚洲国产日韩在线一区模特| 伊甸园精品99久久久久久| 国产一区二区精品久久99| 国产精品色在线| 国产精品免费电影| 欧美日韩国产一中文字不卡| 欧美国产日韩一区二区在线观看 | 日韩视频国产视频| 伊人婷婷欧美激情| 激情五月***国产精品| 国内精品伊人久久久久av一坑| 老色鬼久久亚洲一区二区| 久久精品99国产精品酒店日本| 久久国产精品亚洲va麻豆| 午夜精品在线视频| 久久本道综合色狠狠五月| 久久精品国产第一区二区三区| 亚洲国语精品自产拍在线观看| 国产精品vvv| 欧美日韩精品在线播放| 欧美日韩国产小视频| 欧美日韩一区精品| 国产精品高清网站| 国产女精品视频网站免费| 国产一区二区三区四区hd| 国产午夜精品一区二区三区视频| 欧美日韩八区| 欧美日韩亚洲系列| 国产精品久久久久久久第一福利 | 欧美一级欧美一级在线播放| 亚洲综合日韩在线| 校园激情久久| 久久精选视频| 欧美成年人网站| 欧美日韩日日骚| 国产精品乱码妇女bbbb| 国产性猛交xxxx免费看久久| 狠狠操狠狠色综合网| 亚洲成在线观看| 9i看片成人免费高清| 亚洲一区影院| 亚洲高清一区二区三区| 日韩一区二区精品葵司在线| 亚洲一区精彩视频| 久久久久九九九九| 欧美精品一区二区蜜臀亚洲| 欧美午夜在线观看| 国产午夜精品一区二区三区欧美 | 国内精品免费午夜毛片| 一区二区在线观看视频在线观看| 国产精品男gay被猛男狂揉视频| 欧美高清视频免费观看| 欧美四级在线观看| 国产一区二区视频在线观看| 亚洲国产精品ⅴa在线观看| 99精品久久久| 午夜在线视频观看日韩17c| 亚洲日产国产精品| 亚洲一区网站| 美女91精品| 国产精品男人爽免费视频1| 在线成人中文字幕| 亚洲四色影视在线观看| 亚洲福利在线看| 亚洲一区二区三区四区五区午夜| 一区二区三区精品视频| 午夜视黄欧洲亚洲| 欧美电影在线观看完整版| 国产精品久久| 亚洲国产视频直播| 欧美亚洲一区三区| 国产精品99久久久久久久女警| 一区二区三区色| 久久久精品999| 欧美先锋影音| 在线观看日韩精品| 亚洲欧美日本日韩| 一区二区三区欧美视频| 久久伊人精品天天| 国产欧美亚洲视频| 一本久道久久综合婷婷鲸鱼| 亚洲国产精品久久久久婷婷老年| 久久爱91午夜羞羞| 亚洲字幕一区二区| 欧美极品一区| 伊人狠狠色丁香综合尤物| 中文精品99久久国产香蕉| 亚洲国产精品尤物yw在线观看| 最新国产精品拍自在线播放| 亚洲免费影视| 欧美激情综合五月色丁香小说| 国产精品theporn88| 亚洲电影欧美电影有声小说| 午夜精品视频在线观看一区二区| 久久精品国产一区二区电影 | 欧美高清不卡| 国产偷国产偷亚洲高清97cao| 国内一区二区三区| 亚洲综合视频一区| 亚洲欧美高清| 欧美日韩亚洲一区二区三区| 亚洲国产欧美日韩另类综合| 久久成人精品| 久久成人精品一区二区三区| 国产精品国产三级国产普通话三级| 国产精品日韩电影| 日韩一级网站| 一区二区三区国产在线| 欧美精品电影在线| 亚洲二区免费| 亚洲激情在线播放| 免费视频一区| 伊人久久大香线蕉综合热线| 久久福利影视| 久久亚洲综合色一区二区三区| 欧美日韩国产免费| 亚洲国产综合91精品麻豆| 亚洲娇小video精品| 男人的天堂亚洲在线| 在线精品一区| 最新国产拍偷乱拍精品| 欧美成人有码| 亚洲国产精品尤物yw在线观看| 亚洲午夜视频在线观看| 亚洲免费影视| 国产精品一区在线观看| 先锋影音网一区二区| 久久精品国产精品| 国语精品中文字幕| 亚洲国产欧美在线| 欧美精品亚洲精品| 日韩午夜在线播放| 亚洲愉拍自拍另类高清精品| 国产精品h在线观看| 亚洲网站在线看| 欧美一级成年大片在线观看| 国产日韩欧美日韩大片| 欧美专区亚洲专区| 久久综合网络一区二区| 在线观看一区视频| 一本久道久久综合狠狠爱| 欧美日韩午夜在线视频| 亚洲天堂网在线观看| 久久av免费一区| 黄色成人av网站| 亚洲精品亚洲人成人网| 欧美午夜精品久久久久久浪潮| 亚洲欧洲在线视频| 国产精品99久久久久久有的能看 | 欧美日韩国产三区| 中文日韩欧美| 久久av老司机精品网站导航 | 欧美日韩一区在线| 国产欧美日韩不卡免费| 伊人久久大香线蕉综合热线| 亚洲第一福利在线观看| 欧美精品一区二区三区在线播放| 国产在线精品二区| 亚洲丁香婷深爱综合| 欧美日韩国产色视频| 亚洲欧美日本视频在线观看| 久热精品视频在线观看| 亚洲精品久久久久久久久久久久久| 久久国产精品99国产精| 免费日韩精品中文字幕视频在线| 国产在线乱码一区二区三区| 亚洲欧洲一级| 国产精品久久99| 亚洲国产一区二区三区高清| 欧美日韩综合| 欧美在线观看你懂的| 欧美精品一区二区精品网 | 亚洲一本大道在线| 国产日韩精品一区二区| 亚洲国产你懂的| 国产精品每日更新在线播放网址| 亚洲天堂av图片| 久久五月激情| 一本到高清视频免费精品| 久久天堂成人| 欧美大学生性色视频| 狠狠色丁香婷婷综合| 亚洲午夜成aⅴ人片| 狠狠色伊人亚洲综合成人| 中国日韩欧美久久久久久久久| 蜜臀av性久久久久蜜臀aⅴ| 一本到高清视频免费精品| 老妇喷水一区二区三区| 亚洲一区美女视频在线观看免费| 亚洲一级黄色片| 影音先锋日韩资源| 欧美一区二区视频免费观看| 亚洲精品女av网站|