《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 一種新的MDP算法的研究
一種新的MDP算法的研究
來源:微型機與應用2012年第5期
高集榮,田 艷,楊永紅,黨運峰
(中山大學 信息科學與技術學院,廣東 廣州 510006)
摘要: 提出了一種高效的挖掘數據倉庫中多維關聯規則的MDP算法。MDP算法通過構造一種擴展的前綴樹MDP-tree,將數據倉庫中的有效信息壓縮存儲,再使用基于MDP-tree的MDP-mining方法快速發現有趣的關聯規則。MDP算法僅需要掃描一次數據倉庫,就可以構造出MDP-tree,進而得到所有的關聯規則。該算法還具有頻繁模式查找簡捷、二次查找迅速等優點。通過實驗驗證了MDP算法的高效性和穩定性,與傳統的多維關聯規則算法相比有更好的性能。
Abstract:
Key words :

摘  要: 提出了一種高效的挖掘數據倉庫中多維關聯規則MDP算法。MDP算法通過構造一種擴展的前綴樹MDP-tree,將數據倉庫中的有效信息壓縮存儲,再使用基于MDP-tree的MDP-mining方法快速發現有趣的關聯規則。MDP算法僅需要掃描一次數據倉庫,就可以構造出MDP-tree,進而得到所有的關聯規則。該算法還具有頻繁模式查找簡捷、二次查找迅速等優點。通過實驗驗證了MDP算法的高效性和穩定性,與傳統的多維關聯規則算法相比有更好的性能。
關鍵詞: 數據挖掘;多維關聯規則;FP-growth算法;MDP算法;頻繁模式

 關聯規則挖掘[1]是數據挖掘的一個重要組成部分,最早由AGRAWAL R在1993年提出關聯規則的問題,經過多年的發展,形成了很多有效關聯規則挖掘算法,如Apriori算法、FP-growth算法等。范明[1]等人提出用改進的Apriori算法來挖掘數據立方體的關聯規則,高學東[2]等人提出的Apriori_Cube算法也是通過改造Apriori算法進而在數據立方體中挖掘多維關聯規則。但傳統的關聯規則挖掘算法依然存在一些問題:(1)主要集中在事務數據庫的應用上,而目前廣泛用于數據分析的是關系數據庫和數據倉庫,與事務數據庫在結構和處理方法上有很大的差異;(2)集中在布爾型的事務項集的基礎上,對關系數據庫和數據倉庫的多維數據,其處理方式不適合;(3)目前基于關系數據庫和數據倉庫的多維關聯規則挖掘算法雖然大多都是有效的,但當數據量比較大時,這些算法的性能不太好。針對以上問題,本文在分析了關聯規則的性能瓶頸和多維關聯規則的基本特征后,提出了一種高效的多維關聯規則算法。
1 算法描述
1.1 MDP算法的基本思想

 多維關聯規則是指從關系數據庫或者數據倉庫中的有趣關聯規則。多維關聯規則的基本概念最早是由KAMBER M.等人在1997年提出的,關聯規則的支持度和置信度通過數據立方體的COUNT值來計算。同時他們還提出了基于元規則的多維關聯規則算法multi-D-slicing算法和n-D cube search算法。隨后不少學者在多維關聯規則研究做出了不少努力,提出的多維關聯規則算法大多是基于Apriori算法的改進算法[3-5]。
經過實驗發現,當數據立方體很大或者支持度較小時,multi-D-slicing算法和n-D cube search算法的運行時間會急劇增加。主要是因為這些算法需要多次數據立方體的掃描,并且還要通過模式匹配遍歷掃描得到的數據集。如果能將數據立方體的掃描減少到最低,則算法性能一定會有大幅的提升。基于這樣的思想,本文提出了一種只需要一次數據立方體掃描的MDP(Multi-Dimensional Pattern)算法。
 MDP算法首先引入一種新的數據結構MDP-tree。它是一種擴展的前綴樹結構,用于壓縮存儲數據立方體中的數據。MDP-tree的結點的排序方式使越頻繁的謂詞對應的樹中結點越容易被共享。同時,對數據立方體的每一維建立了一個謂詞索引表Header Table,用來鏈接MDP-tree中該維謂詞對應的相同的結點,從而很容易求得數據立方體的任一切片。本文還提出了一種基于MDP-tree的關聯規則挖掘方法MDP-mining,可以直接從MDP-tree中迅速得到所有的強關聯規則。
MDP算法步驟主要由MDP-tree的構建和基于MDP-tree的頻繁模式挖掘兩步組成。
1.2 MDP-tree的設計和構造
 MDP-tree的設計原則是一次數據立方體掃描和壓縮存儲數據立方體信息的內存空間:
 (1)如果僅掃描一次數據立方體,則MDP-tree必須存儲完整的數據立方體信息,而不是頻繁的最大謂詞集。因為計算頻繁謂詞集的置信度時,需要關聯規則對應的數據立方體切塊。如果只是存儲頻繁謂詞集,則會過濾掉一些本身不頻繁,但子集是頻繁的謂詞集。
 (2)如果存儲所有的信息,則需要一種能壓縮數據并維持原謂詞關系的數據結構,前綴樹是一種很好的選擇。這就需要對謂詞集進行排序,根據數據立方體的性質,很容易得到各個維的SUM值,以SUM值來對謂詞集排序:SUM值最小的維中謂詞重復出現最經常,對應的謂詞位于前綴樹的第一層;SUM值最大的維中謂詞重復出現最不經常,可以作為前綴樹的葉子結點;其他維按照SUM值由小到大的順序在樹中分層排列。
 (3)求頻繁謂詞集的置信度時,需要關聯規則對應的數據立方體切塊。如果為此每次都要遍歷整棵樹,則時間消耗較大。因此引入了謂詞索引表,謂詞索引表依據數據立方體的維分別建立。每個謂詞索引表存放該維的所有謂詞,并建立樹中對應結點的鏈接。通過謂詞索引表直接得到相關謂詞的切塊,有效降低了時間消耗。
 基于以上的設計原則構造成的MDP-tree如下:
 (1)MDP-tree組成
 MDP-tree包含一個標記為”root”的根結點,以根結點的孩子結點為根的前綴子樹集合和數據立方體每個維對應的謂詞索引表Header Table。
 (2)Header Table結構及構建過程
結點結構:Header Table的結點包含謂詞標識符、指向下一個結點的*next指針和指向樹中同名結點的*link指針三個屬性。
 構建過程:根據掃描數據立方體得到的維數和謂詞,每個維單獨建立一個謂詞索引表,包含該維內掃描得到的不重復謂詞。
 (3)MDP-tree結構及構建過程
 結點結構:MDP-tree的結點包含謂詞標識符、計數Count、指向父親結點的指針*parent、指向孩子結點的指針*child和指向同名謂詞的鏈接*link。
 構建過程:根據各維SUM值由大到小的順序對各維排序,SUM值最小的維為MDP-tree的第一層結點;SUM值最大的為葉子結點。然后遍歷數據立方體的數據集,在MDP-tree中查找對應結點,如果存在該結點,則將其Count數相加;如果不存在,則按照剛才的分層順序建立結點。檢查頭鏈表中相應結點,若其鏈接為空,則將其鏈接到該結點上;否則,找到該鏈接的最后一個結點,將其鏈接到該結點上。
1.3 MDP-tree的性質

 


 由MDP-tree的構建過程可以得到幾條重要的性質:
 性質1 MDP-tree的完備性:給定一個數據立方體C,它對應的MDP-tree包含該數據立方體的完備信息。
 證明:由MDP-tree的構建過程可知,任一數據立方體中記錄都映射到MDP-tree中的一條路徑,并且對應的Count值也完整地保存到了樹的結點中,各維信息也通過謂詞索引表Header Table記錄。因此對關聯規則挖掘來說,MDP-tree的信息是完備的。
 性質2 MDP-tree中葉子結點等高,并且MDP-tree的高度由數據立方體的維數決定。
 證明:由MDP-tree的構建過程可知,任一數據立方體中記錄都映射到MDP-tree中的一條路徑。數據立方體中的記錄都是等長的,所以MDP-tree中葉子結點是等高的。如果不考慮樹的根結點,則樹的深度和數據立方體的維數是一致的。
 引理 葉子結點的計數最小:MDP-tree的葉子結點Count值是該結點到根結點路徑中最小的。
 證明:設數據立方體C,(a1,a2,…an)是MDP-tree中的一條根結點到葉子結點的完整路徑,且(a1,a2,…an)?奐C。若謂詞a1,a2,…an在C的記錄中只出現一次,則MDP-tree中Count(a1)=Count(a2)=…=Count(an);若前綴路徑a1,a2,…an-1在其他記錄中出現,則Count(a1)= Count(a2)=…=Count(an-1)>Count(an);若前綴路徑中部分謂詞在其他記錄中出現,如b1,a2,…an,則(b1,a2,…an)和(a1,a2,…an)在MDP-tree中屬于不同的路徑,路徑(a1,a2,…an)中Count(a1)=Count(a2)=…=Count(an)。所以葉子結點具有該路徑上所有結點的最小計數。
 定理 葉子結點決定整條路徑的頻繁性:如果MDP-tree的葉子結點是頻繁謂詞,則該葉子結點到根結點之間路徑對應的謂詞集是頻繁的;反之,如果葉子結點是不頻繁的,則該謂詞集是不頻繁的。
證明:由引理可知,MDP-tree的葉子結點具有最小的支持數。所以葉子結點是頻繁謂詞,該謂詞集就是頻繁謂詞集,反之亦然。
2 算法驗證
 參考文獻[7]中已經驗證了多維關聯規則算法中n-D cube search算法優于multi-D-slicing算法,因此,將對本文提出的MDP算法和性能較好的n-D cube search算法進行比較,通過實驗來驗證MDP算法的性能。
2.1 實驗環境及工具
 為了準確地評價算法性能,本文實現了MDP算法和n-D cube search算法。實驗平臺的配置如表1所示。
2.2 實驗數據
 本實驗的數據來自Microsoft SQL Server 2000 Analysis Service附帶的FoodMart2000數據庫。FoodMart公司是一家在美國、加拿大和墨西哥等地銷售食品和其他商品的零售連鎖店,銷售記錄數據庫FoodMart2000中存有該公司1997年和1998年的銷售記錄,包括商品、客戶和銷售時間等信息。本實驗數據取自該公司1998年的銷售記錄,共有1 560件商品,10 280個客戶和164 558個銷售記錄。依據該數據,分商品、客戶和時間三個維度來建立數據立方體。
2.3 實驗結果分析
 實驗從數據立方體的大小、關聯規則的最小支持度和最小置信度等方面來考察各個算法的時間消耗。
 (1)數據立方體大小變化對算法性能的影響
 圖1是數據立方體大小改變時對各算法的運行時間的影響。從圖中可以看出,兩種算法的運行時間都隨著數據立方體的增大而變大,其中n-D cube search算法受數據立方體的大小影響較大。在數據立方體比較小的時候,n-D cube search算法的性能甚至優于MDP算法,因為雖然n-D cube search算法會多次遍歷數據立方體,而MDP算法構造MDP-tree需要一定的時間。隨著數據立方體的增大,需要多次掃描數據立方體的n-D cube search算法的運行時間也會大增,而MDP-tree算法運行時間增長緩慢,因為MDP-tree只需要掃描一次數據立方體,性能受數據立方體的大小影響不大。從圖1還可以看出,MDP算法的運行時間增長十分平穩,說明MDP算法有較好的可伸縮性。

 圖2是數據立方體大小改變時對算法內存消耗的影響。從圖中可以看出,隨著數據立方體的增大,n-D cube search算法和MDP算法消耗的內存都在增加。當數據立方體較小時, MDP算法消耗的內存較小。但隨著數據立方體的增大,需要更多的內存空間來構造MDP-tree,因此MDP算法的內存消耗增加更快,逐漸大于n-D cube search算法的內存消耗。
 (2)最小支持度變化對算法性能的影響
 圖3是支持度變化時,n-D cube search算法和MDP算法運行時間結果。從圖中可以看出,隨著支持度的增大,兩種算法的運行時間都在減少,因為隨著支持度的增大,得到的頻繁謂詞集也會減少,使求出強關聯規則的時間也更少。但由于n-D cube search算法初始頻繁謂詞集比較多時,n-D cube search算法需要很多的運行時間,因此n-D cube search算法的運行時間減少得更快。而MDP算法在建立MDP-tree時是不考慮最小支持度的,所以支持度的變化對MDP算法的運行時間影響不大。

 (3)MDP算法的二次查詢優化
 由于MDP算法的MDP-tree與關聯規則的最小支持度和最小置信度無關,因此,當最小支持度或最小置信度改變時,不需要重新構建新的MDP-tree。圖4是最小支持度變化時不用構建新的MDP-tree的MDP算法的運行時間結果。從圖中可以看出,第一次輸入最小支持度時需要構建MDP-tree,運行時間比較長;當改變最小支持度時,不再需要重新構建MDP-tree,MDP算法的運行時間就會大幅度降低,而且隨著最小支持度的變化緩慢改變。
 本文針對傳統的多維關聯規則算法在處理數據量大或者頻繁模式長時存在時間消耗較大的問題,提出了一種高效的多維關聯規則的MDP算法。該算法通過構造一種擴展的前綴樹MDP-tree,將數據倉庫中的有效信息壓縮存儲,再使用基于MDP-tree的MDP-mining方法來發現有趣的關聯規則,通過實驗驗證了該算法的工作過程以及其優越性。
參考文獻
[1] 范明,牛常勇,朱琰.一種挖掘多維關聯規則的有效算法[J].計算機科學,2001,28(11).
[2] 高學東,王文賢,武森.基于數據立方體的多維關聯規則的挖掘方法[J].計算機工程,2003,29(14).
[3] DONG G, HAN J. Mining constrained gradients in large databases[J]. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(8):922-938.
[4] TJIOE H, TANIAR D. Mining association rules in data warehouses[J]. International Journal of Data Warehousing and Mining, 2005, 1(3):28–62.
[5] TJIOE H, TANIAR D. A framework for mining association rules in data ware houses[M]. Springer-Verlag Berlin Heidelberg, 2004: 159-165.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
国语精品一区| 亚洲视频图片小说| 国产精品大全| 欧美黄色片免费观看| 久久人人爽爽爽人久久久| 欧美一区二区三区四区视频| 亚洲一区二区三区免费在线观看| 亚洲伦理一区| 99视频国产精品免费观看| 亚洲精品久久久久中文字幕欢迎你 | 久久尤物视频| 久久丁香综合五月国产三级网站| 亚洲一区日韩在线| 亚洲女同精品视频| 午夜精品免费视频| 欧美伊久线香蕉线新在线| 欧美亚洲系列| 久久精品免费观看| 浪潮色综合久久天堂| 欧美大胆人体视频| 欧美日韩精品国产| 国产精品久久网| 国产丝袜美腿一区二区三区| 韩国v欧美v日本v亚洲v| 在线成人中文字幕| 亚洲国产色一区| 一本久道久久综合中文字幕| 亚洲图片欧美一区| 午夜国产精品视频免费体验区| 欧美一区二区日韩一区二区| 久久都是精品| 亚洲精品久久在线| 亚洲色图自拍| 欧美一级淫片aaaaaaa视频| 久久九九免费| 欧美国产精品人人做人人爱| 欧美日韩一级片在线观看| 国产精品久久久一区二区| 国产一区二区三区av电影| 亚洲第一成人在线| 夜夜爽夜夜爽精品视频| 亚洲欧美日韩爽爽影院| 亚洲国产另类精品专区 | 亚洲免费成人av电影| 国内精品久久久久久影视8| 久久久久久黄| 欧美成人四级电影| 欧美精品久久久久a| 一本一本a久久| 在线日韩电影| 亚洲看片一区| 亚洲欧美国产视频| 亚洲第一久久影院| 久久天天躁狠狠躁夜夜av| 国内成人在线| 亚洲裸体在线观看| 亚洲一区二区三区欧美| 久久久精品tv| 欧美日韩免费一区二区三区| 国产视频在线观看一区二区三区| 亚洲激情成人在线| 亚洲一区二区少妇| 亚洲国产1区| 香蕉精品999视频一区二区| 久久综合福利| 国产精品久久久久三级| 在线观看免费视频综合| 亚洲一级网站| 亚洲人午夜精品免费| 欧美一级二区| 欧美女同视频| 激情久久久久久久久久久久久久久久| 99在线|亚洲一区二区| 久久精品国产第一区二区三区| 一区二区三区日韩精品| 久久久之久亚州精品露出| 欧美日韩在线三区| 亚洲国产精品va在线看黑人动漫| 午夜精品剧场| 这里只有精品视频在线| 久久亚洲精品欧美| 国产精品夜夜夜| 亚洲美女中文字幕| 亚洲人成绝费网站色www| 久久xxxx| 国产精品免费观看视频| 亚洲日韩欧美视频一区| 久久精品久久综合| 欧美一区日本一区韩国一区| 欧美日韩国产精品专区| 悠悠资源网亚洲青| 久久精品成人一区二区三区蜜臀 | 欧美黑人一区二区三区| 黄色日韩网站| 性做久久久久久久免费看| 亚洲欧美伊人| 欧美日韩一视频区二区| 亚洲日本中文| 亚洲精品1234| 麻豆亚洲精品| 精品99一区二区| 欧美亚洲午夜视频在线观看| 午夜精品久久久久久久白皮肤| 欧美日韩国产综合视频在线观看| 亚洲国产精品久久久久秋霞不卡| 久久精品成人一区二区三区| 久久精品国产一区二区三区免费看| 国产精品视频导航| 亚洲一区综合| 欧美一区二区三区日韩| 国产精品久久久免费| 中文一区字幕| 亚洲欧美中文日韩在线| 国产精品久久久久毛片大屁完整版 | 久久中文精品| 国产精品久久99| 国产精品99久久久久久白浆小说 | 亚洲一区二区三| 亚洲免费中文字幕| 国产精品毛片大码女人| 正在播放欧美一区| 亚洲一区二区成人| 国产精品久久久久久超碰 | 欧美性大战xxxxx久久久| 一本色道久久综合一区| 亚洲一区二区三区午夜| 欧美亚洲成人精品| 亚洲视频图片小说| 欧美一区二区啪啪| 国产午夜精品一区二区三区视频| 欧美在线www| 美腿丝袜亚洲色图| 亚洲欧洲日韩女同| 中国成人在线视频| 国产精品www网站| 欧美亚洲一区二区三区| 久久久亚洲综合| 亚洲国产精品成人精品| 99在线热播精品免费| 欧美日韩一区二区三区视频 | 亚洲欧美日韩网| 久久亚洲一区二区| 亚洲国产精品一区二区第四页av| 99国产精品久久久久老师| 欧美日韩亚洲高清一区二区| 亚洲小说春色综合另类电影| 欧美亚洲视频在线观看| 韩日精品视频| 亚洲精品日韩久久| 欧美日韩一级黄| 午夜久久黄色| 美女在线一区二区| 亚洲日韩视频| 欧美一二三区在线观看| 影视先锋久久| 一个人看的www久久| 国产精品视频免费一区| 久久国产精品久久久久久久久久| 欧美aⅴ99久久黑人专区| 亚洲作爱视频| 久久久噜噜噜久久中文字幕色伊伊| 亚洲国产高潮在线观看| 亚洲伊人一本大道中文字幕| 国产亚洲午夜| 99re6这里只有精品| 国产精品亚洲产品| 亚洲国产一二三| 国产精品久久久久国产a级| 久久精品国产亚洲一区二区| 欧美日韩国产欧美日美国产精品| 亚洲性色视频| 欧美14一18处毛片| 亚洲中午字幕| 欧美成人精品在线视频| 亚洲专区一区| 欧美激情国产高清| 香蕉久久夜色精品国产| 欧美激情亚洲国产| 欧美一区二区久久久| 欧美日本不卡高清| 久久成人精品无人区| 欧美日韩亚洲激情| 亚洲高清视频的网址| 国产精品国产三级国产aⅴ入口 | 国产精品一区二区女厕厕| 亚洲人成网站在线播| 国产精品素人视频| 亚洲美女尤物影院| 国产亚洲福利| 亚洲欧美国产高清| 亚洲国产91精品在线观看| 欧美一区激情| 一本久久青青| 欧美经典一区二区| 久久国产乱子精品免费女| 国产精品久久久久9999| 99国产精品国产精品毛片| 韩国久久久久| 欧美一级精品大片| 一本久久a久久精品亚洲|