《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 不平衡數(shù)據(jù)加權(quán)集成學(xué)習(xí)算法
不平衡數(shù)據(jù)加權(quán)集成學(xué)習(xí)算法
2015年微型機與應(yīng)用第23期
徐麗麗1,閆德勤2
(1.遼寧師范大學(xué) 數(shù)學(xué)學(xué)院,遼寧 大連 116029; 2.遼寧師范大學(xué) 計算機與信息技術(shù)學(xué)院,遼寧 大連 116081)
摘要: 針對傳統(tǒng)的機器學(xué)習(xí)算法對不平衡數(shù)據(jù)集的少類分類準(zhǔn)確率不高的問題,基于支持向量機和模糊聚類,提出一種不平衡數(shù)據(jù)加權(quán)集成學(xué)習(xí)算法。首先提出加權(quán)支持向量機模型(Weighted Support Vector Machine,WSVM),該模型根據(jù)不同類別數(shù)據(jù)所占比例的不同,為各類別分配不同的權(quán)重,然后將WSVM與模糊聚類結(jié)合提出一種新的集成學(xué)習(xí)算法。將本文提出的算法應(yīng)用于人造數(shù)據(jù)集和UCI數(shù)據(jù)集實驗中,實驗結(jié)果表明,所提出的算法能夠有效地解決不平衡數(shù)據(jù)的分類問題,具有更好的分類性能。
Abstract:
Key words :

  摘  要: 針對傳統(tǒng)的機器學(xué)習(xí)算法對不平衡數(shù)據(jù)集的少類分類準(zhǔn)確率不高的問題,基于支持向量機和模糊聚類,提出一種不平衡數(shù)據(jù)加權(quán)集成學(xué)習(xí)算法。首先提出加權(quán)支持向量機模型(Weighted Support Vector Machine,WSVM),該模型根據(jù)不同類別數(shù)據(jù)所占比例的不同,為各類別分配不同的權(quán)重,然后將WSVM與模糊聚類結(jié)合提出一種新的集成學(xué)習(xí)算法。將本文提出的算法應(yīng)用于人造數(shù)據(jù)集和UCI數(shù)據(jù)集實驗中,實驗結(jié)果表明,所提出的算法能夠有效地解決不平衡數(shù)據(jù)的分類問題,具有更好的分類性能。

  關(guān)鍵詞: 不平衡數(shù)據(jù)集;權(quán)值;支持向量機;聚類;集成

0 引言

  不平衡數(shù)據(jù)[1-2]分類問題一直備受關(guān)注,已成為機器學(xué)習(xí)領(lǐng)域中的研究熱點。現(xiàn)實生活中,存在著許多不平衡數(shù)據(jù)的例子。如:醫(yī)療診斷、故障檢測等。目前,不平衡數(shù)據(jù)分類問題的處理方法主要分為兩類:

  數(shù)據(jù)層面上,主要是對原始數(shù)據(jù)集進行處理,利用少數(shù)類過采樣、多數(shù)類欠采樣等方法使原始數(shù)據(jù)集各類別數(shù)據(jù)個數(shù)達到相對平衡。過采樣技術(shù)(Synthetic Minority Ove-rsampling Technique,SMOTE)[3]通過少類樣本和其近鄰樣本的線性關(guān)系獲得新的少類樣本,減少了過擬合現(xiàn)象,但在生成新樣本時存在盲目性,容易出現(xiàn)樣本混疊現(xiàn)象,增加噪音樣本。單邊選擇欠采樣技術(shù)(One-sided Selection)[4]尋找互為最近鄰的異類樣本對,并將其中的多類樣本判斷為噪聲點并刪除,但將噪聲點完全刪除,會丟失重要的數(shù)據(jù)信息。

  算法層面上,主要是對已有分類算法進行改進或是設(shè)計新算法。趙相彬等人提出基于欠采樣與修正核函數(shù)相結(jié)合的SVM算法[5],根據(jù)保角變換修正SVM的核函數(shù),有效地提高了分類準(zhǔn)確率。Seref等人提出Weighted Relaxed Support Vector Machine(WRSVM)[6],WRSVM是代價敏感學(xué)習(xí)和Relaxed SVM(RSVM)的結(jié)合,減少了離群點的影響。Lin等人提出基于SVM和聚類的不平衡數(shù)據(jù)分類算法[7],該算法利用模糊聚類(FCM)將訓(xùn)練集的多類數(shù)據(jù)集分成幾個子集,然后用每個子集和訓(xùn)練集的少類分別訓(xùn)練子分類器,最后通過投票原則確定最終分類結(jié)果。但FCM并不是對數(shù)據(jù)集平均分組。例如,設(shè)多類數(shù)據(jù)個數(shù)為100個,少類數(shù)據(jù)個數(shù)為30個,則需將100個多類數(shù)據(jù)分為3個子集,各子集個數(shù)可能為(24,36,40)、(10,25,65),當(dāng)子集個數(shù)為65時,和少類數(shù)據(jù)個數(shù)30相比,兩類數(shù)據(jù)個數(shù)依然是不平衡的。

  因此,針對這一問題,本文提出一種加權(quán)集成學(xué)習(xí)算法——Ensemble Weighted Sup-port Vector Machine based on FCM(FCM-EN WSVM)。首先提出加權(quán)支持向量機模型,該模型根據(jù)不同類別數(shù)據(jù)所占比例不同,為各類別分配不同的權(quán)重。然后利用FCM將訓(xùn)練集的多類數(shù)據(jù)分為若干子集,每個子集分別和訓(xùn)練集的少類作為新的訓(xùn)練集訓(xùn)練多個WSVM分類器,最后對測試集進行測試,通過投票原則確定最終分類結(jié)果。新算法有效地解決了不平衡數(shù)據(jù)的分類問題。

1 支持向量機

  支持向量機(Support Vector Machine,SVM)[8-9]是Corinna Cortes和Vapnik等人于1995年首先提出的,其基本原理:假設(shè)給定帶有標(biāo)簽的訓(xùn)練集S={(x1,y1),…,(xn,yn)},其中,xi∈RN表示樣本點,yi∈{-1,1}表示所屬類別標(biāo)簽,i=1,…,n。則SVM模型的目標(biāo)函數(shù)為:

  1.png

  其中?孜i為松弛變量,C為懲罰參數(shù),建立拉格朗日函數(shù),式(1)轉(zhuǎn)化為其對偶問題:

  2.png

  則其決策函數(shù)為:

  3.png

  在非線性可分情況下,輸入樣本空間找不到最優(yōu)分類超平面,因此將數(shù)據(jù)通過核函數(shù)映射到高維特征空間中,此時:

  4.png

  其決策函數(shù)為:

  5.png

  2 本文提出的算法

  2.1 加權(quán)支持向量機(WSVM)

  為了減小數(shù)據(jù)類別不平衡對SVM訓(xùn)練模型的影響,根據(jù)每個類別數(shù)據(jù)對分類貢獻的不同,區(qū)別對待每一類別數(shù)據(jù),為其分配不同的權(quán)值,則WSVM模型的目標(biāo)函數(shù)為:

  6.png

  其中W為各類別的權(quán)值矩陣。

  式(6)的對偶問題為:

  7.png

  那么,映射到高維空間的決策函數(shù)為:

 8.png

  2.2 權(quán)值的定義

  權(quán)值W需滿足以下條件:

  (1)少類數(shù)據(jù)的權(quán)值大于多類數(shù)據(jù)的權(quán)值,即Wshao>Wduo;

  (2)Wi∈(0,1),且3APSO9CKBOC1TO]H7QWAK2L.png,C為數(shù)據(jù)的類別數(shù)。

  設(shè)訓(xùn)練集的樣本數(shù)為N,類別數(shù)為C,各類別的樣本數(shù)從小到大排序依次為n1,n2,…,nC,則第i類數(shù)據(jù)的權(quán)值定義為:

  9.png

  根據(jù)不同類別樣本個數(shù)所占的比例為其分配不同的權(quán)重,多類數(shù)據(jù)的權(quán)重大,少類數(shù)據(jù)的權(quán)重小,從而使各類別數(shù)據(jù)比例趨于平衡。

  2.3 FCM-ENWSVM

  模糊C均值聚類算法(Fuzzy C-means,F(xiàn)CM)[10]于1981年被Bezdek提出。它的思想是將數(shù)據(jù)集劃分為不同的簇,要求同一簇的對象之間的相似度盡可能的大,而不同簇的對象之間的相似度盡可能的小。

  FCM-ENWSVM算法(基于支持向量機和聚類的不平衡數(shù)據(jù)加權(quán)集成學(xué)習(xí)算法):

  (1)計算訓(xùn)練集的多類數(shù)據(jù)和少類數(shù)據(jù)的個數(shù),并將其個數(shù)比記為M;

  (2)利用FCM算法將多類數(shù)據(jù)集分為M個子集;

  (3)M個子集分別和少類數(shù)據(jù)構(gòu)成新的訓(xùn)練集,訓(xùn)練M個WSVM分類器;

  (4)分別用M個分類器對測試集進行測試。

  最終結(jié)果通過投票原則決定。

3 實驗結(jié)果及分析

  3.1 人造數(shù)據(jù)

  隨機生成一個300×2的數(shù)據(jù)集,按3∶1的比例隨機分為訓(xùn)練集和測試集。實驗中,分別用訓(xùn)練集訓(xùn)練SVM、WSVM兩種分類器,核函數(shù)選擇文獻[11]中的Linear、RBF。圖1、圖2分別表示兩種核函數(shù)的條件下,兩種分類器對測試集的測試結(jié)果,其中每幅圖中Original表示測試集真實的類別分布,SVM、WSVM表示用SVM、WSVM兩種分類器分類后的測試集類別分布,加號表示正類(少類)1,點表示負類(多類)0,圈表示錯分的數(shù)據(jù)點F。

001.jpg

  從圖1、圖2可以看出,在兩種核函數(shù)下,WSVM的分類正確數(shù)都明顯高于SVM的。WSVM考慮了不同類別數(shù)對分類準(zhǔn)確率的貢獻多少,權(quán)值起到了平衡的作用,有效地提高了分類器的性能。

  3.2 UCI數(shù)據(jù)實驗

  從UCI數(shù)據(jù)庫中選取了6個數(shù)據(jù)集,分別為wine、glass、housing、pima、breast、bupa,各數(shù)據(jù)集的基本信息如表1所示。

004.jpg

  實驗中,將表1中的數(shù)據(jù)集按3∶1的比例隨機分為訓(xùn)練集和測試集,分類方法選擇SVM、FSVM[12]、RSVM[11]、FCM-SVM[7]、FCM-ENWSVM(本文算法),評價準(zhǔn)則選擇文獻[13]中的G-means、F-measure[13]。為了充分驗證本文算法的有效性,圖3、圖4分別為glass、wine數(shù)據(jù)的訓(xùn)練集打亂順序進行8次實驗的結(jié)果折線圖,表2~表5為其他4個數(shù)據(jù)集的實驗結(jié)果,均取循環(huán)20次的平均值。

002.jpg

003.jpg

  從圖3、圖4可以看出,本文提出的算法FCM-ENWSVM的G-means和F-measure明顯高于其他方法。FCM-ENWSVM的變化比較穩(wěn)定,而SVM、FSVM、RSVM的變化較大,F(xiàn)CM-SVM雖然比較穩(wěn)定,但是準(zhǔn)確率低,沒有考慮到FCM不是對數(shù)據(jù)集進行平均分組,訓(xùn)練集的多類、少類個數(shù)依然是不平衡的。然而,F(xiàn)CM-ENWSVM改進了這些算法的不足之處,通過FCM和權(quán)值改善了數(shù)據(jù)的不平衡性,具有更好的分類效果。

  從表2~表5中可以看出,在不同的核函數(shù)下,F(xiàn)CM-ENWSVM的G-means、F-measure都高于其他方法。特別地,對于housing數(shù)據(jù),當(dāng)核函數(shù)為Linear時,SVM、FSVM的G-means、F-measure都為0,而FCM-ENWSVM的準(zhǔn)確率相對較高。還可以發(fā)現(xiàn),當(dāng)多類少類的不平衡性差時,如bupa數(shù)據(jù),SVM和FCM-SVM的結(jié)果相同,說明在FCM-SVM中,F(xiàn)CM并沒有起到作用,準(zhǔn)確率依然不高,而FCM-ENWSVM的卻相對較高。FCM-ENWSVM利用了FCM算法,并考慮到用權(quán)值來改善數(shù)據(jù)的類別不平衡度,從而解決了FCM不平均分組再次造成數(shù)據(jù)不平衡的問題,有效地提高了分類準(zhǔn)確率。

4 結(jié)論

  本文針對傳統(tǒng)分類算法對不平衡數(shù)據(jù)的分類準(zhǔn)確率低的問題,基于支持向量機和模糊聚類,提出了一種不平衡數(shù)據(jù)加權(quán)集成學(xué)習(xí)算法。該算法根據(jù)不同類別樣本對分類貢獻的不同為每個類別分配不同的權(quán)重,提出加權(quán)支持向量機模型,并且利用模糊聚類算法對訓(xùn)練集的多類數(shù)據(jù)進行聚類,聚類后的每個子集分別和訓(xùn)練集的少類數(shù)據(jù)作為訓(xùn)練集,訓(xùn)練加權(quán)支持向量機子分類器。最后通過投票原則決定最終分類結(jié)果。將新算法應(yīng)用于實例數(shù)據(jù)集的分類問題中,有效性和優(yōu)越性得到了證明。

參考文獻

  [1] JAPKOW I, STEPHEN S. The class imbalance problem: a systermatic studay[J]. Intelligent Data Analysis Journal,2002,6(5):429-450.

  [2] YANG Q,WU X. 10 challenging problems in data mining research[J]. International Journal of Info-rmation Technology&Decision Making,2006, 5(4): 597-604.

  [3] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling Technique[J]. Journal of Artificial Intelligence Resaerch, 2002(16):321-357.

  [4] KUBAT M, MATWIN S. Addressing the curse of  imbalanced training sets: one-sided selection[C]. Proceedings of the 14th International Conference on Machine Learning, San Francisco, 1997:179-186.

  [5] 趙相彬,梁永全,陳雪.基于支持向機的不平衡數(shù)據(jù)分類研究[J].計算機與數(shù)字工程,2013,41(2):241-243.

  [6] SEREF O, RAZZAGHI T, XANTHOPOULOS P. Weighted relaxed support vector machines[J]. Annals of Opearations Research,Springer US,2014(9):1-37.

  [7] Lin Kaibiao, Weng Wei, ROBERT K, et al. Imbalance data classification algorithm based on SVM and clustering function[C]. The 9th International Conference on Computer Science & Education, 2014:544-548.

  [8] CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning,1995,20(3):237-297.

  [9] VAPNIK V.Statistical learning theory[M]. New York: J.Wiley,1998.

  [10] BEZDEK J. Pattern recognition with fuzzy objec-tive function algorithms[M]. New York: Plenum press,1981.

  [11] 梁紅霞,閆德勤.粗糙支持向量機[J].計算機科學(xué),2009,36(4):208-210.

  [12] Huang Hanpang, Liu Yihung. Fuzzy support vector machines for pattern recognition and data mining[J]. International Journal of Fuzzy Systems, 2002,4(3):826-835.

  [13] 徐麗麗,閆德勤,高晴.基于聚類欠采樣的極端學(xué)習(xí)機[J].微型機與應(yīng)用,2015,34(17):81-84.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲国产精选| 欧美日韩不卡视频| 亚洲第一精品久久忘忧草社区| 久久久久久久久综合| 久久经典综合| 亚洲福利视频三区| 国产一区二区三区自拍| 牛牛精品成人免费视频| 日韩小视频在线观看专区| 这里只有精品视频| 国产欧美日韩一区二区三区在线观看| 欧美影片第一页| 中日韩在线视频| 日韩亚洲视频| 国产三级精品在线不卡| 久久综合给合久久狠狠色 | 午夜天堂精品久久久久| 黑人一区二区| 欧美精品播放| 久久精品二区三区| 一区二区免费在线观看| 亚洲天堂成人在线观看| 国产在线成人| 欧美日韩另类字幕中文| 欧美国产91| 亚洲欧美在线磁力| 亚洲国产一区二区视频| 夜夜嗨av一区二区三区网页| 国产亚洲精品bt天堂精选| 国产精品爽爽爽| 欧美成人在线影院| 欧美一区二区三区免费看| 午夜精品一区二区三区在线视| 亚洲欧美国产毛片在线| 亚洲国产精品毛片| 91久久精品国产91性色tv| 一区二区国产精品| 亚洲天堂网站在线观看视频| 亚洲自拍偷拍麻豆| 亚洲国产一成人久久精品| 国产精品性做久久久久久| 国产精品国产三级国产a| 免费不卡视频| 羞羞视频在线观看欧美| 亚洲免费大片| 亚洲一区二区三区免费视频| 亚洲高清免费在线| 午夜精品久久久久久| 午夜亚洲影视| 亚洲精品裸体| 久久精品99久久香蕉国产色戒| 久久精品国产综合精品| 亚洲精选成人| 亚洲高清免费在线| 99国产精品久久久久久久久久 | 免费成人高清在线视频| 欧美精品一区二区精品网| 国产精品国产三级国产普通话三级| 国产精品亚洲欧美| 揄拍成人国产精品视频| 国产日韩欧美麻豆| 在线日韩av| 一区二区精品国产| 久久国产精品99国产精| 亚洲欧美日韩精品久久亚洲区 | 午夜视频一区二区| 老司机精品视频网站| 欧美午夜精品久久久久久人妖| 欧美va亚洲va国产综合| 国产精品久久久久久久7电影| 国产自产2019最新不卡| 亚洲免费激情| 亚洲欧洲精品一区二区三区不卡 | 99精品国产在热久久| 欧美一区二区三区在线免费观看 | 国产农村妇女精品| 欧美日韩精品一区视频| 国产乱理伦片在线观看夜一区| 18成人免费观看视频| 亚洲视频在线观看三级| 91久久线看在观草草青青| 亚洲欧美三级伦理| 欧美国内亚洲| 国产亚洲精品久| 一区二区精品在线| 亚洲人成毛片在线播放| 久久精品91久久久久久再现| 欧美午夜精品久久久| 在线色欧美三级视频| 亚洲欧美日韩在线高清直播| 夜夜嗨av一区二区三区网站四季av| 久久久久免费| 国产精品久久久久9999吃药| 亚洲国内自拍| 亚洲福利视频一区二区| 亚洲欧美制服中文字幕| 欧美日韩亚洲视频| 欧美日韩国产综合视频在线观看中文| 国产乱码精品| 亚洲视频在线免费观看| 夜夜嗨av一区二区三区| 免费影视亚洲| 极品av少妇一区二区| 亚洲高清在线视频| 欧美一区二区日韩一区二区| 欧美一区二区视频网站| 亚洲一区二区三区国产| 欧美护士18xxxxhd| 在线观看成人av| 久久国产夜色精品鲁鲁99| 久久av一区二区三区漫画| 欧美性大战久久久久久久蜜臀| 91久久国产综合久久蜜月精品| 亚洲国产电影| 玖玖综合伊人| 狠狠色综合色区| 欧美中文字幕在线| 久久精品在线免费观看| 欧美国内亚洲| 在线欧美日韩国产| 亚洲国产毛片完整版 | 欧美电影在线| 亚洲成人资源| 亚洲人成网站色ww在线| 你懂的一区二区| 亚洲激情成人在线| 日韩视频在线一区| 欧美日韩免费观看一区=区三区| 亚洲人成欧美中文字幕| 日韩午夜三级在线| 欧美日韩国产成人在线91| 日韩小视频在线观看专区| 亚洲作爱视频| 国产精品草莓在线免费观看| 亚洲视频精品在线| 性8sex亚洲区入口| 国产亚洲一级高清| 久久精品亚洲一区二区三区浴池| 久久亚洲综合色一区二区三区| 欧美另类在线观看| 国产视频亚洲| 欧美在线播放一区二区| 久久久亚洲高清| 伊甸园精品99久久久久久| 亚洲欧洲日产国产网站| 欧美精品aa| 亚洲午夜女主播在线直播| 91久久精品网| 欧美片网站免费| 在线视频精品一| 欧美在线日韩精品| 禁断一区二区三区在线 | 日韩视频二区| 欧美日韩精品中文字幕| 亚洲一区影音先锋| 久久免费精品日本久久中文字幕| 亚洲第一二三四五区| 亚洲视频二区| 久久一区二区三区av| 亚洲国产精品一区二区www在线| aa亚洲婷婷| 国产精品一区二区久久久| 欧美在线免费观看亚洲| 欧美国产日韩在线| 一本色道久久综合亚洲91| 欧美一级大片在线观看| 永久免费精品影视网站| 亚洲午夜精品久久| 欧美精品aa| 亚洲女爱视频在线| 免费一级欧美在线大片| 亚洲视频免费看| 久久综合激情| 99精品久久久| 久久精品夜色噜噜亚洲a∨| 亚洲欧洲另类| 欧美中在线观看| 91久久久久久| 欧美在线观看一区| 亚洲人永久免费| 久久精品亚洲一区二区| 99精品福利视频| 另类综合日韩欧美亚洲| 中文日韩在线| 美女图片一区二区| 亚洲视频免费在线观看| 欧美xxxx在线观看| 午夜精品久久99蜜桃的功能介绍| 欧美高清不卡在线| 欧美一级大片在线免费观看| 国产精品99久久久久久久久| 国产欧美一区二区三区视频 | 欧美精品成人在线| 欧美一级在线视频| 欧美三级在线视频| 夜夜嗨一区二区三区| 久久视频在线看| 亚洲午夜av在线| 美国十次成人| 亚洲欧美一区在线|