《電子技術(shù)應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 設計應用 > 基于d-AIFCM的Web用戶聚類分析
基于d-AIFCM的Web用戶聚類分析
2014年微型機與應用第20期
楊毓茹,林錦賢
福州大學 數(shù)學與計算機科學學院,福建 福州 350108
摘要: 傳統(tǒng)FCM聚類算法存在初始聚類中心較為敏感的問題,易陷入局部最優(yōu)。針對此問題,提出了基于密度權(quán)值和自適應免疫系統(tǒng)的FCM算法(d-AIFCM)。算法在對Web用戶進行聚類分析的過程中,基于用戶群體之間的相似性,引入密度權(quán)值生成候選初始聚類中心,采用自適應免疫系統(tǒng)的原理確定初始聚類中心,自動生成最佳分類,解決傳統(tǒng)FCM算法對初始聚類中心敏感的問題。實驗結(jié)果表明,d-AIFCM算法在收斂次數(shù)和聚類效果方面較其他同類算法有所提升。
Abstract:
Key words :

  摘  要: 傳統(tǒng)FCM聚類算法存在初始聚類中心較為敏感的問題,易陷入局部最優(yōu)。針對此問題,提出了基于密度權(quán)值和自適應免疫系統(tǒng)的FCM算法(d-AIFCM)。算法在對Web用戶進行聚類分析的過程中,基于用戶群體之間的相似性,引入密度權(quán)值生成候選初始聚類中心,采用自適應免疫系統(tǒng)的原理確定初始聚類中心,自動生成最佳分類,解決傳統(tǒng)FCM算法對初始聚類中心敏感的問題。實驗結(jié)果表明,d-AIFCM算法在收斂次數(shù)和聚類效果方面較其他同類算法有所提升。

  關鍵詞: 初始聚類中心;FCM;自適應免疫算法;Web用戶聚類

0 引言

  在互聯(lián)網(wǎng)高速發(fā)展的時代,Web服務的方式趨于多元化,如何為不同需求的Web用戶提供個性化服務是當前網(wǎng)絡服務的研究熱點。目前,多個研究小組通過對Web用戶進行聚類分析,研究用戶的行為、興趣等信息,從而為用戶提供個性化服務。在實際應用中,用戶的興趣受多方面影響,采用FCM進行聚類分析能較客觀地反映現(xiàn)實世界。本文對傳統(tǒng)的FCM算法進行改進,并將其應用于Web用戶聚類分析,具有一定的研究意義。

1 相關工作

  FCM算法對初始化數(shù)據(jù)較敏感,易陷入局部最優(yōu)。針對該問題有兩種解決辦法:一種是在聚類過程中進行全局隨機搜索,參考文獻[1]利用模擬退火算法擾動當前聚類結(jié)果,擾動結(jié)果以一定的概率被認為是當前的全局最優(yōu)解,但計算耗時長。另一種是改善初始化條件,參考文獻[2]提出的FaiNet算法利用生物克隆免疫系統(tǒng)的原理對原始數(shù)據(jù)進行初始化,但其初始抗體群是隨機生成的;參考文獻[3]利用參考區(qū)域獲取聚類中心,算法的性能依賴于區(qū)域半徑的選取。本文引入密度權(quán)值,將自適應免疫原理與FCM算法結(jié)合提出d-AIFCM算法,該算法可自動生成最佳分類,解決了FCM算法對初始聚類中心敏感的問題,能夠最大程度找到全局最優(yōu)解。

2 算法設計

  2.1 用戶興趣矩陣

  設pj為網(wǎng)站頁面,ui為訪問用戶,則ui對pj的興趣度Iij為:

  1.png

  其中,ω表示ui對pj的瀏覽次數(shù),Tijt表示ui第t次訪問pj的瀏覽時間。

  定義1 (用戶興趣矩陣)以pj為橫坐標,以ui為縱坐標,以Iij為矩陣元素構(gòu)造用戶興趣矩陣:

  1+.png

  2.2 算法思路

  設DS為樣本數(shù)據(jù)集合,D為樣本的密度權(quán)值;RS為候選初始聚類中心集合;MS為初始聚類中心集合。

  2.2.1 確定候選聚類中心

  聚類中心處于所代表類的中心位置,且在樣本點密度連續(xù)的范圍內(nèi)應該只具有一個聚類中心,以防止兩個類高度重疊。故聚類中心的選取應該滿足:具有較高的密度且與其他中心的距離盡可能大。

  本文對每一個樣本點賦予密度權(quán)值:

  2.png

  其中,‖xi-xj‖2為樣本點間的歐氏距離,rd表示領域密度半徑:

  3.png

  2.2.2 確定初始聚類中心

  自適應免疫系統(tǒng)是人體的重要防御系統(tǒng)。當機體受到抗原性異物刺激時,被激活的抗體會發(fā)生選擇性克隆與變異,部分與抗原具有較高親和力的個體保存并組建成為該抗原的記憶細胞。受自適應免疫系統(tǒng)的啟發(fā),抗體的克隆過程相當于用戶興趣的傳播過程,變異過程相當于用戶的興趣變化,記憶細胞類似于聚類中心。將RS中的元素Ri視為抗體,DS中的元素Gj視為抗原,產(chǎn)生的記憶細胞即為初始聚類中心。

  定義2 (親和度)親和度用來衡量抗體與抗原之間的匹配性,用τij表示:

  4.png

  定義3 (克隆)克隆是抗體進行的自我復制過程,其克隆體的數(shù)量為:

  5.png

  定義4 (變異)變異是抗體在克隆過程中為增加個體多樣性而進行的操作,變異公式如式(6)所示:

  Ri=Ri-α(Ri-Gj)(6)

  其中,α表示變異率,計算公式為:

  7.png

  其中,r為[0,1]之間的隨機數(shù),[DY(`LHZM]FH)W]`][Z4_)D.png,DGj表示抗原Gj的密度權(quán)值。

  2.2.3 算法實施

  d-AIFCM算法的具體實施過程如下:

  (1)選取候選聚類中心。

  輸入:DS

  輸出:RS

  ①初始化樣本密度權(quán)值D;

  ②選取擁有最大密度權(quán)值的樣本點xi,RS←xi,Set←xi,從DS中移除xi;

  ③選擇與xi最近的樣本點xl,Seti←xl,從DS中移除xl;

  ④選取xk,xk與Set中的樣本點距離最近;

  ⑤如果Dk小于Set中所有樣本點的密度權(quán)值,從DS中移除xk,轉(zhuǎn)到步驟④,否則轉(zhuǎn)至步驟②;

  ⑥輸出RS。

  (2)確定初始聚類中心。

  輸入:DS,RS

  輸出:MS

  初始閾值σ、ε;

  For Gj in DS;

  If Gj與MS中的記憶細胞的距離大于ε;

  計算RS中抗體Ri與抗原Gj的親和度;

  選取親和度最大的前n個抗體→RS′;

  For Ri in RS′

  `44%46O)1J03Z]LVHP2F}2H.jpg

  Rit=Ri-α(Ri-Gj)

  End for

  End for

  計算Rit與Gj的親和度,按一定比例保留親和度較大的克隆體→MS′;

  計算MS′中克隆體之間的歐式距離,刪除距離小于閾值σ的克隆體;

  計算MS′的重心,得到記憶細胞M,M→MS;

  End if

  End for

  (3)以MS中數(shù)據(jù)為初始聚類中心執(zhí)行FCM算法的迭代過程。

3 實驗結(jié)果與分析

  3.1 實驗數(shù)據(jù)與環(huán)境

  實驗數(shù)據(jù):實驗數(shù)據(jù)采用某學院網(wǎng)站2012年1月份一周內(nèi)的Web日志,對Web日志進行預處理,處理后共有2 786個用戶,28個網(wǎng)站頁面。

  實驗環(huán)境:Intel(R)Core(TM)i3-3210M@3.20 GHz CPU,4 GB內(nèi)存,Windows XP 32位操作系統(tǒng)。采用JAVA實現(xiàn)算法,并利用MATLAB制作實驗圖表。

  3.2 評價指標

  實驗分別從迭代次數(shù)(I)、分支系數(shù)(PC)[4]和分配熵系數(shù)(PE)[5]對本文算法、原始的FCM算法以及參考文獻[3]的FaiNet算法進行了比較分析。

  PC值反應了模糊集群之間成員共享的程度,值越高,集群之間的重疊就越小,計算公式為:

  8.png

  PE是驗證模糊聚類的另一個指標,值越小,算法就越穩(wěn)定,計算公式為:

  9.png

  3.3 實驗分析

  在本實驗中,F(xiàn)CM算法中的加權(quán)指數(shù)b取值為2,閾值σ取0.18~0.98共9個值,進行9組實驗。實驗過程發(fā)現(xiàn),類別數(shù)與σ相關,σ越小,產(chǎn)生的記憶細胞數(shù)越多,類別數(shù)越多,反之亦然,如圖1所示。

001.jpg

  3.3.1 迭代次數(shù)的比較

  FaiNet算法中的抗體群是隨機生成的,屬不完全匹配的記憶細胞法。d-AIFCM算法在進行聚類之前已經(jīng)充分考慮密度權(quán)值和距離等因素,又經(jīng)過克隆和變異操作,挑選出一批較精確的初始聚類中心,類別數(shù)也隨之確定,屬完全匹配記憶細胞法,避免了原始FCM算法隨機選取初始聚類中心的弊端,這樣可以加快聚類過程的收斂速度。可以通過實驗來進行驗證,實驗結(jié)果如圖2所示。

002.jpg

  3.3.2 PC和PE的比較

  PC值和PE值的對比分別如圖3、圖4所示。從圖3及圖4可知,d-AIFCM算法具有較小的重疊性和較大的穩(wěn)定性。同時,算法的PC值呈上升狀態(tài)最后趨于平穩(wěn),PE值呈下降狀態(tài)最后趨于平穩(wěn),說明當類別數(shù)越多,針對用戶的分類越詳細,一個用戶所歸屬的類別數(shù)也越多,則類間的重疊性就會增加;當類別數(shù)越少,分類結(jié)果趨于平穩(wěn),極端情況下,所有用戶同屬于一個類,則重疊性最小且最穩(wěn)定,但是這不符合實際情況,故在實際應用中應根據(jù)實際的需要選擇合適的σ值。

  可以注意到,實驗中閾值σ取不同的值時,PC值的跳躍性較大,且PE值明顯均較高,這與數(shù)據(jù)集的特性有關,數(shù)據(jù)集是從實際的Web日志中提煉出來的,數(shù)據(jù)稀疏性較大,可能影響算法的性能。

4 結(jié)論

  本文針對FCM算法中存在的對初始聚類中心敏感的問題,在自適應免疫算法的啟發(fā)下,提出了一種新的基于Web日志的聚類方法。該方法無需人工作指定類別數(shù),類別數(shù)可在算法實施過程中自動生成,并減輕了數(shù)據(jù)初始化對聚類結(jié)果的影響。實驗表明,該算法與相關算法相比,在收斂次數(shù)和聚類效果上具有一定的優(yōu)越性。在后續(xù)的工作中,將圍繞如何降低數(shù)據(jù)稀疏性對算法性能的影響等方面展開。

參考文獻

  [1] Zhao Xinchao. Simulated annealing algorithm with adaptive neighborhood[J]. Applied Soft Computing, 2011,11(2): 1827-1836.

  [2] SZABO A, DE CASTRO L N, DELGADO M R. FaiNet: an immune algorithm for fuzzy clustering[C]. Fuzzy Systems (FUZZ-IEEE), IEEE, 2012: 1-9.

  [3] 李鑫,張繼福,蔡江輝.一種基于大密度區(qū)域的模糊聚類算法[J].小型微型計算機系統(tǒng),2012,33(6):1310-1315.

  [4] Xie Xuanli, BENI G. A validity measure for fuzzy clustering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1991, 13(8): 841-847.

  [5] AMIG?魷 E, GONZALO J, ARTILES J, et al. A comparison of extrinsic clustering evaluation metrics based on formal constraints[J]. Information Retrieval, 2009, 12(4):461-486.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
久久精品国产亚洲一区二区三区| 美日韩在线观看| 在线欧美视频| 国产日韩综合| 国产精品国产馆在线真实露脸| 欧美激情亚洲综合一区| 老牛嫩草一区二区三区日本| 久久九九全国免费精品观看| 小嫩嫩精品导航| 亚洲中字黄色| 亚洲一区二区免费看| 一区二区三区.www| 一区二区高清在线观看| 亚洲麻豆国产自偷在线| 亚洲黄色高清| 亚洲黄色性网站| 亚洲欧洲精品一区二区三区| 亚洲激情不卡| 91久久精品一区| 亚洲激情午夜| 亚洲毛片视频| 一区二区三区产品免费精品久久75 | 免费成人在线视频网站| 亚洲一区二区三区国产| 亚洲少妇最新在线视频| 亚洲深夜福利网站| 亚洲欧美久久久| 欧美一级理论性理论a| 午夜一区在线| 久久精品视频在线| 久久亚洲免费| 欧美aa国产视频| 欧美人与禽猛交乱配视频| 欧美日韩国产探花| 国产精品播放| 国产亚洲成精品久久| 精品动漫av| 亚洲激情视频在线观看| 一本大道av伊人久久综合| 亚洲一区二区三| 亚洲欧美制服另类日韩| 久久成人精品视频| 日韩视频一区二区在线观看 | 国产日韩在线一区| 国产综合精品| 亚洲国产精品女人久久久| 亚洲毛片一区| 亚洲欧美不卡| 亚洲黄色在线| 亚洲午夜视频| 久久国产精品免费一区| 欧美高清你懂得| 欧美午夜不卡影院在线观看完整版免费| 国产精品成人v| 狠狠色丁香婷婷综合| 亚洲精品一二三| 午夜在线a亚洲v天堂网2018| 亚洲国产一区在线| 亚洲影视综合| 久久综合福利| 欧美午夜精品伦理| 国内偷自视频区视频综合| 亚洲欧洲一区二区在线播放| 亚洲一区二区三区色| 亚洲国产成人91精品| 中文一区二区在线观看| 久久女同精品一区二区| 欧美日韩国产区| 国产婷婷一区二区| 亚洲美女一区| 欧美在线免费视屏| 亚洲美女在线观看| 欧美一区91| 欧美高清在线一区二区| 国产女主播一区二区三区| 91久久精品美女高潮| 午夜精品一区二区三区在线视| 亚洲精品在线观| 久久国产精品一区二区| 欧美午夜www高清视频| 亚洲国产精品女人久久久| 欧美一区日韩一区| 午夜精品久久| 欧美人与禽性xxxxx杂性| 狠狠v欧美v日韩v亚洲ⅴ| 亚洲调教视频在线观看| 亚洲精品美女| 久久久久免费视频| 国产精品毛片大码女人| 亚洲精品少妇| 亚洲激情一区二区| 久久久午夜电影| 国产精品一区二区黑丝| 99精品国产福利在线观看免费| 亚洲三级电影全部在线观看高清| 久久都是精品| 国产精品免费看| 在线午夜精品自拍| 亚洲精品国产日韩| 久久这里只有精品视频首页| 国产日本欧美一区二区三区| 夜久久久久久| 亚洲精品一区中文| 另类人畜视频在线| 国产亚洲精品v| 一本到12不卡视频在线dvd| 亚洲伦理一区| 久久综合免费视频影院| 国产乱码精品一区二区三区忘忧草| 亚洲精品国产精品久久清纯直播| 亚洲欧洲一区二区三区在线观看| 亚洲国产精品久久人人爱蜜臀 | 久久久999国产| 国产精品综合| 一区二区三区欧美日韩| 亚洲精品老司机| 久久最新视频| 国产亚洲人成a一在线v站| 日韩视频精品在线| av不卡免费看| 欧美成人精品在线| 狠狠狠色丁香婷婷综合激情| 午夜精品久久久久久久99樱桃 | 亚洲国产精品视频一区| 亚洲欧美电影院| 国产精品久久久久久久免费软件| 亚洲激情国产精品| 亚洲国产成人久久综合一区| 欧美在线免费观看视频| 国产精品美女久久久| 日韩性生活视频| 亚洲国产日韩在线| 欧美成人精品三级在线观看| 狠狠色丁香婷婷综合久久片| 欧美一区2区三区4区公司二百| 午夜精品美女自拍福到在线 | 一本色道久久综合狠狠躁的推荐| 亚洲精品影院| 欧美黄色aaaa| 亚洲国产美女精品久久久久∴| 亚洲福利视频网站| 久久综合伊人77777尤物| 激情久久久久| 久久精品国产久精国产爱| 久久青草久久| 国产精品一区二区你懂的| 欧美在线黄色| 久久视频精品在线| 激情六月婷婷久久| 亚洲国产欧美一区二区三区久久| 美女成人午夜| 在线观看欧美黄色| 一本色道久久综合狠狠躁的推荐| 欧美精品v日韩精品v韩国精品v | 亚洲精品国产精品国自产观看| 欧美激情bt| 亚洲精选在线观看| 在线综合欧美| 国产精品欧美激情| 亚洲一卡久久| 亚洲欧美日韩综合国产aⅴ| 国内成+人亚洲| 亚洲国产精品精华液2区45| 欧美国产日韩二区| 亚洲免费电影在线观看| 亚洲午夜精品视频| 国产一区二区成人| 久久国产天堂福利天堂| 免费高清在线一区| 亚洲伦理中文字幕| 亚洲在线播放| 欧美日韩性生活视频| 亚洲欧美日韩系列| 久久久精品网| 亚洲国产精品久久久久秋霞蜜臀| 夜夜爽99久久国产综合精品女不卡| 欧美日韩国产黄| 日韩一区二区免费高清| 久久精品官网| 亚洲国产成人精品久久| 一区二区三区四区国产精品| 国产精品欧美经典| 久久精品国产精品亚洲精品| 欧美成人性网| 亚洲一级网站| 噜噜噜噜噜久久久久久91| 亚洲人成在线观看| 午夜欧美理论片| 伊人久久婷婷| 香蕉久久久久久久av网站| 一区视频在线看| 在线一区二区视频| 国产视频一区在线观看| 亚洲精品色婷婷福利天堂| 国产欧美精品一区二区三区介绍| 亚洲精品久久久久| 国产精品在线看| 日韩午夜电影在线观看| 国产久一道中文一区| 亚洲精品自在久久|