《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 一種基于統計排序的網絡流量特征選擇方法
一種基于統計排序的網絡流量特征選擇方法
2018年電子技術應用第1期
劉紀偉,趙月顯,趙 楊
國家計算機網絡與信息安全管理中心河北分中心,河北 石家莊 050021
摘要: 利用網絡流量的統計特征進行流量的分類識別需要從眾多的特征中選取最優特征集合,以避免冗余和不相關特征造成的系統模型復雜度過高、分類準確率和效率下降等問題。針對該問題,提出一種基于統計排序的網絡流量特征選擇方法。首先利用基于統計方法定義的特征選擇系數生成初始特征子集,再將基于分類準確率構建的特征影響系數作為特征評估排序的依據,對初始特征子集進行二次特征選擇,生成最優特征子集。實驗結果表明,該方法在保證分類整體準確率的同時有效減少了流量統計特征的個數,在分類效果、效率以及穩定性之間實現了較好的平衡。
中圖分類號: TP393
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.172203
中文引用格式: 劉紀偉,趙月顯,趙楊. 一種基于統計排序的網絡流量特征選擇方法[J].電子技術應用,2018,44(1):84-87.
英文引用格式: Liu Jiwei,Zhao Yuexian,Zhao Yang. A feature selection method of network traffic based on statistic and ranking strategy[J]. Application of Electronic Technique,2018,44(1):84-87.

A feature selection method of network traffic based on statistic and ranking strategy
Liu Jiwei,Zhao Yuexian,Zhao Yang
Network and Information Security Administration Center Hebei Center,Shijiazhuang 050021,China
Abstract: It is required to select the best features from so many ones in order to avoid the high complexity of the model, the low classification accuracy and efficiency caused by redundant and irrelevant features, if network traffic classification is obtained by using the statistical characteristics. To solve the problem, a network traffic feature selection method based on statistic and ranking is proposed, according to generate the initial feature subset by using feature selection coefficient defined by statistic and then generate the optimal feature subset through the second feature selection of the initial feature subset by using feature influence coefficient defined by classification accuracy as the reference of extraction and ranking. Experimental results show that the proposed algorithm can reduce the number of features effectively while ensuring the overall classification accuracy and a good balance is achieved between classification effectiveness, efficiency and stability.
Key words : network traffic classification;feature selection;statistic and ranking;feature influence

0 引言

    網絡流量分類是指將混合有各種應用的流量,按產生這些流量的應用協議進行分類。網絡流量分類既是高性能網絡協議設計的基礎,又是網絡運營管理、網絡發展規劃的依據,也是網絡攻擊與惡意代碼檢測的重要手段[1]

    基于網絡流量的統計特征并利用機器學習的方法進行流量的分類識別是當前學術界的研究熱點,一方面該方法克服了傳統基于標準端口匹配和深度包檢測方法在技術上的不足,另一方面基于網絡流量統計特征的方法不涉及報文的有效載荷信息,避免了對用戶隱私侵犯帶來的法律問題。但是網絡流量特征屬性繁多,目前得到學術界廣泛認可的各類特征數量就已多達240余個,大量冗余和不相關的特征屬性不僅會增加流量分類系統模型的復雜度,還會降低分類算法的效率和性能,造成流量分類準確率和效率同時下降。因此,需要對網絡流量特征進行選擇,剔除冗余和不相關的特征。

    近幾年學術界對此開展了廣泛和深入的研究。文獻[2]提出了一種分治和投票的策略,首先對原始訓練集進行分割,利用分割后的子集分別獲得特征子集,再通過投票獲得最終的特征子集,有效地縮短了算法運行時間;文獻[3]提出一種結合過濾型和封裝型特征選擇算法優點的組合式特征選擇算法,并將該算法用于網絡流量中P2P流量的識別,實驗結果表明在保證分類平均準確率不低于90%的情況下,可以將特征個數縮減至7個;潘吳斌等人在文獻[4]中提出一種基于選擇性集成策略的嵌入式特征選擇方法,采用選擇性集成方法選取5種特征選擇器產生特征子集,再通過改進的序列前向搜索和封裝器組合方法產生最優特征子集,在一定程度上解決了類別不均衡和概念漂移的問題;孫興斌等人在文獻[5]、[6]中也對多類不均衡問題和少數類召回率低的問題進行了研究,提出了有針對性的特征選擇方法,盡管在實驗環境下取得了很好的效果,但由于選取的特征個數與網絡應用種類數相同,在實際應用中依然面臨不小的挑戰;文獻[7]給出了一種以分類準確率作為判決準則的流量特征二次排序選擇的思路,但特征的初次選擇依然采用傳統方式,算法的效率受到一定限制。

    本文在前述學者的研究工作基礎之上,針對現有網絡流量特征選擇方法存在的問題,提出一種基于統計排序的特征選擇方法(Feature Selection based on Statistic and Ranking,FSSR)。FSSR首先根據特征選擇系數大小選取類相關性強、類別區分度高的特征組成初始特征子集,初始特征子集中的特征個數與網絡應用種類個數相同,然后根據特征影響系數大小按序對初始特征子集進行二次選擇,再次進行降維尋優操作,從而獲得最優特征子集,有效提升分類的效率和效果。

1 FSSR方法

1.1 相關定義

    為了方便描述,對文中使用的標記符號說明如下:C={c1,c2,c3,…,ck}表示具有k個類的網絡應用集合;T={t1,t2,t3,…,tm}表示具有m個網絡流量特征的集合;X={x1,x2,x3,…,xN}表示樣本數量為N的網絡流樣本數據集合,其中xi形式為以T中元素表征的特征向量。

    定義1 特征選擇系數fij

    特征選擇系數fij用來衡量特征ti和類cj之間的相關性以及ti將cj與其他類區分開來的能力。

    根據香農的信息論理論,對于某個特征t,如果類c的樣本在這個特征上的取值越集中,說明c在t上的不確定性越小,即特征t與類c相關性越強,利用特征t能更好地識別類c;如果類c1和類c2的樣本在特征t上的取值區間沒有交集或者交集很小,則利用特征t就能很好地區分類c1和類c2?;诖耍x特征選擇系數如下:

    tx2-gs1.gif

其中,|ti|表示統計所有樣本在特征ti上全部取值的個數,γinj表示統計類cj在特征ti上取第n個值的樣本個數占類cj樣本總數的比例。可見,特征選擇系數大小由類在特征上取值的集中程度和該類與其他所有類在該特征上取值區間的差異程度決定。在特征上的取值越集中,類間的取值區間相差越大,特征系數越大,相應的特征和類相關性越強。

    定義2 特征影響系數Ii

    特征影響系數Ii用來衡量特征ti對分類準確率的影響程度。定義如下:

tx2-gs2.gif

1.2 算法原理

    FSSR方法的核心思想是基于相關性并利用統計的方法找出既能準確標識網絡應用同時又在不同應用類別之間具有明顯分布差異的網絡流量特征。如果所有目標應用的樣本在某些流量特征上的分布都很集中,同時各個應用的分布之間差異明顯,那么顯然利用這些特征能夠很好地區分出各個目標應用。比如,目標應用a的樣本在特征1上的取值分布集合是{1,2},在特征2上的取值分布集合是{1,2,3,4,5},目標應用b的樣本在特征1上的取值分布集合是{9,10},在特征2上的取值分布集合是{4,5,6,7,8},比較特征1和特征2,顯然利用特征1能更好地標識和區分目標應用。1.1節中的特征選擇系數即基于此思想定義。

1.3 算法描述

    FSSR方法主要由特征選擇系數計算、初始特征子集生成、特征影響系數計算和最優特征子集生成四個部分組成。算法運行過程分為兩個階段,第一階段生成初始特征子集,由于初始特征子集中的特征數量與網絡應用類別數量相等,當網絡應用數量較多時,很可能造成選取到冗余和不相關特征,因此第二階段對初始特征子集進行二次選擇,進一步尋優,得到最優特征子集。在第二階段計算各特征的特征影響系數時,采用C4.5決策樹分類算法評估分類準確率。算法詳細步驟描述如下:

    輸入:網絡流樣本訓練數據集X

    輸出:最優特征子集S

    (1)初始化初始特征子集S1,最優特征子集S為空集;

    (2)遍歷訓練集X中的樣本,根據式(1)計算每個網絡應用類型對應每個流量特征的特征選擇系數fij,其中1≤i≤m,1≤j≤k;

    (3)對應用類型cj,掃描集合{fij}(1≤i≤m),計算I=tx2-1.3-x1.gif,得到對應的流量特征tI,放入S1中;如果S1中已有特征tI,則刪除fij,重新計算tx2-1.3-x1.gif

    (4)循環執行步驟(3),直到遍歷完所有的應用類型cj(1≤j≤k),得到初始特征子集S1;

    (5)利用初始特征子集S1,對訓練集X使用10次折疊交叉驗證,采用C4.5決策樹分類算法,根據式(2),計算S1中每個特征的特征影響系數;

    (6)查找S1中特征影響系數最大的特征順序放入S中,并將該特征從S1中刪除;

    (7)利用特征子集S,對訓練集X使用10次折疊交叉驗證,采用C4.5決策樹分類算法,計算分類準確率pS

    (8)重復執行步驟(5)~(7),直到pS取得最大值,此時的特征子集S即為最優特征子集;

    (9)結束。

2 實驗與分析

2.1 實驗工具與實驗數據集

    本文使用的主要實驗工具為Weka 3.8。Weka是新西蘭懷卡托大學開發的一個基于JAVA環境的開源機器學習以及數據挖掘軟件,包含多種機器學習算法。同時,Weka提供JAVA接口,為開發者提供了一個基于JAVA的二次開發平臺,支持開發者自己編寫代碼進行新學習算法開發。實驗平臺運行Windows 7操作系統,CPU為Intel Core i5-3470 3.20 GHz,內存大小為4 GB。

    實驗利用MOORE A W等人在文獻[8]中給出的網絡流數據集Moore_set作為實驗測試數據集,這是目前網絡流量分類研究中最為權威的測試數據集。Moore_set中包含10個數據子集、377 526個網絡流樣本、248個流量特征屬性(最后一個屬性是目標應用,即指出網絡流所屬的應用類型)、12種應用類型(數據子集中應用類型FTP又進一步分為:FTP-CONTROL、FTP-PASV和FTP-DATA)。10個數據子集的采集時間在同一天,按先后順序編號,每個數據子集的采集持續時間約30 min,具體統計信息如表1~表3所示。

tx2-b1.gif

tx2-b2.gif

tx2-b3.gif

    從表1可以看出,Moore_set中INT和GAMES兩種應用類型的樣本數量相對過少,不具有代表性,因此刪除這兩種類型的樣本,保留其余樣本。

    從表3可以看出,DB和MMEDIA兩種應用類型分別在數據子集5、6和數據子集9、10中沒有分布。為了保證實驗數據集中應用分布的統一,不選取這4個數據子集作為實驗數據集。經過以上選擇處理后,實驗數據集共包含6個數據子集、205 210個網絡流樣本、10種應用類型,6個數據子集分別是entry01、entry02、entry03、entry04、entry07、entry08[8]。

2.2 實驗結果分析

    為了有效評價分類效果,Weka給出了分類算法的總體準確率和按類計算的詳細準確率,詳細準確率包括真正率、假正率、精確率、召回率、F-Measure值等性能指標。文獻[1]中給出了對以上各項性能評價指標的詳細介紹,請參閱。

    實驗首先分別在各個數據子集上運行FSSR特征選擇方法,獲得并記錄從各數據子集選取的初始特征子集和最優特征子集以及分別僅包含初始特征和最優特征的數據子集;然后為了評價FSSR方法的效果和效率,選擇C4.5算法構造分類器,使用10次折疊交叉驗證方法分別在初始特征數據子集、最優特征數據子集和未進行特征選擇的全特征數據子集上執行分類操作,對網絡流量進行分類識別。實驗結果對比如表4~表6所示。

tx2-b4.gif

tx2-b5.gif

tx2-b6.gif

    由表4可知,經過FSSR方法選擇后的特征數量明顯減少,將原來的248個特征平均減少到現在的7.67個,表明FSSR的降維效果明顯。

    由表5可知,FSSR方法在6個實驗數據子集上獲得的平均分類總體準確率略高于原始全特征數據子集的總體準確率,準確率未有較大程度地提升,主要原因是:分類算法C4.5本身性能很好,對未進行特征選擇的原始實驗數據集進行分類時總體準確率已經達到了99.6%以上,提升空間有限,并且實驗數據集樣本數量龐大,增加的少量正確分類樣本數對準確率貢獻較小。

    由表6可知,雖然FSSR方法在提升分類準確率方面貢獻不大,但由于在特征集合降維方面效果明顯,降低了分類模型的復雜度,所以在系統建模時間上,利用FSSR方法獲得的最優特征子集進行分類建模的時間遠遠低于全特征集合。

    表7給出了FSSR在實驗數據集上選取頻率最高的6個特征,其中序號、標識符參照文獻[8]中的定義。

tx2-b7.gif

    總的來說,FSSR特征選擇方法在網絡流量分類識別方面取得了較好的效果,在保證分類總體準確率的同時,大幅度地減少了網絡流量的統計特征數目,從而有效降低了后續分類系統模型的復雜度和對系統資源的占用,提高了分類效率。

3 結論

    本文針對機器學習在網絡流量分類中面臨的流量統計特征選擇問題,提出一種基于統計排序的特征選擇方法,首先利用特征選擇系數為各網絡應用類型選擇相關性強、與其他應用區分度高的特征,組成初始特征子集??紤]到網絡應用類型過多時仍然可能導致選取到冗余和不相關的特征,再將特征影響系數作為特征評估排序的依據,對初始特征子集進行二次特征選擇,生成最優特征子集。實驗結果表明,該方法在保證分類整體準確率的同時,有效減少了流量統計特征的個數,達到了預期的效果。但網絡流量存在應用類別分布不均衡以及概念漂移等問題,在對多類不均衡流量進行分類時,機器學習分類模型往往傾向于多數類,造成少數類召回率較低。目前的特征選擇方法可以很好地解決維數災難的問題,但在解決上述問題方面還有很多不足,下一步的主要研究方向即為結合機器學習和特征選擇解決網絡流量分類中的多類不均衡和概念漂移問題。

參考文獻

[1] 汪立東,錢麗萍,王大偉,等.網絡流量分類方法與實踐[M].北京:人民郵電出版社,2013.

[2] 高文,錢亞冠,吳春明,等.網絡流量特征選擇方法中的分治投票策略研究[J].電子學報,2015,43(4):795-799.

[3] 儲慧琳,張興明.一種組合式特征選擇算法及其在網絡流量識別中的應用[J].小型微型計算機系統,2012,33(2):325-329.

[4] 潘吳斌,程光,郭曉軍,等.基于選擇性集成策略的嵌入式網絡流特征選擇[J].計算機學報,2014,37(10):2128-2137.

[5] 孫興斌,孫彥贊,鄭小盈,等.面向多類不均衡網絡流量的特征選擇方法[J].計算機應用研究,2017,34(2):568-571.

[6] 孫興斌,芮赟.一種基于統計頻率的網絡流量特征選擇方法[J].小型微型計算機系統,2016,37(11):2483-2487.

[7] 申健,夏靖波,張曉燕,等.基于分治排序策略的流量二次特征選擇[J].電子學報,2017,45(1):128-133.

[8] MOORE A W,ZUEV D,CROGAN M.Discriminators for use in flow-based classification,RR-05-13[R].London:Queen Mary University of London,2005.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
久久精品国产免费观看| 亚洲欧美久久久| 午夜亚洲精品| 一区二区三区蜜桃网| 亚洲精品欧美日韩专区| 亚洲国语精品自产拍在线观看| 黄色av日韩| 国产字幕视频一区二区| 国产在线一区二区三区四区 | 久久精品一二三| 午夜欧美大片免费观看| 亚洲免费中文字幕| 亚洲专区一区二区三区| 亚洲免费中文| 午夜在线精品| 欧美一级专区免费大片| 性欧美大战久久久久久久久| 欧美一区二区高清| 久久av最新网址| 久久久噜噜噜久久人人看| 久久久人人人| 女同一区二区| 欧美经典一区二区三区| 欧美日韩国产亚洲一区| 欧美日韩亚洲一区三区| 国产精品白丝av嫩草影院| 国产精品爽爽ⅴa在线观看| 国产嫩草影院久久久久| 国产亚洲女人久久久久毛片| 狠狠干成人综合网| 亚洲国产精品精华液2区45| 亚洲三级电影全部在线观看高清| 亚洲乱亚洲高清| 亚洲小说区图片区| 欧美一区二区三区在线观看视频| 欧美在线综合| 亚洲娇小video精品| 一二三区精品| 欧美自拍偷拍午夜视频| 久久在精品线影院精品国产| 欧美大片91| 国产精品久久久久久超碰| 国产亚洲成精品久久| 激情综合色综合久久综合| 亚洲国产综合在线看不卡| 一区二区三区导航| 欧美一区2区视频在线观看| 亚洲国产视频一区| 亚洲天堂网站在线观看视频| 欧美一二三视频| 牛人盗摄一区二区三区视频| 欧美日韩国产精品专区 | 亚洲欧美综合精品久久成人| 亚洲激情av| 亚洲一区二区欧美| 久久精品五月| 欧美日韩一区二区三区高清| 国产一本一道久久香蕉| 91久久精品一区| 亚洲欧美在线高清| 日韩视频第一页| 欧美怡红院视频| 欧美精品激情在线观看| 国产酒店精品激情| 亚洲激情亚洲| 欧美亚洲在线播放| 一区二区精品在线观看| 久久精品视频免费观看| 欧美日本国产精品| 国内精品久久久久影院薰衣草| 99一区二区| 亚洲激情电影在线| 欧美中文在线观看国产| 欧美日韩另类国产亚洲欧美一级| 国产视频一区欧美| 99视频精品| 亚洲国产欧洲综合997久久| 亚洲欧美文学| 欧美激情亚洲视频| 狠狠色丁香婷婷综合影院| 中国女人久久久| 亚洲精品乱码久久久久久蜜桃91| 欧美一区二区三区在| 欧美日本韩国一区| 伊人成年综合电影网| 亚洲一区二区少妇| 一区二区三区精品| 欧美成人按摩| 激情六月婷婷综合| 午夜在线不卡| 亚洲一区免费网站| 欧美国产日产韩国视频| 国产一区视频在线观看免费| 亚洲香蕉伊综合在人在线视看| 日韩一区二区高清| 欧美成人中文| 伊人久久大香线| 欧美在线观看日本一区| 亚洲欧美日韩综合国产aⅴ| 欧美日韩在线免费| 亚洲日本aⅴ片在线观看香蕉| 久久精品国产一区二区电影| 欧美一区国产一区| 国产精品久久久爽爽爽麻豆色哟哟| 亚洲经典三级| 亚洲精品一二三| 欧美成人一区二区三区| 狠狠色2019综合网| 久久精品99国产精品酒店日本| 欧美一区二区黄| 国产精品久久久久久久免费软件| 亚洲免费不卡| 中文欧美在线视频| 欧美日韩调教| 日韩一区二区免费高清| 99re热这里只有精品免费视频| 欧美国产视频在线观看| 亚洲国产精品视频一区| 亚洲人成免费| 欧美激情按摩在线| 亚洲激情第一区| 亚洲免费高清视频| 欧美日韩国产黄| 一区二区电影免费在线观看| 一区二区久久久久| 欧美午夜a级限制福利片| 亚洲视频www| 亚久久调教视频| 国产一区二区黄| 亚洲国产cao| 欧美国产免费| 亚洲久久一区| 亚洲欧美成人| 国产欧美日韩亚洲一区二区三区| 性感少妇一区| 久久夜色精品国产欧美乱| 一区二区三区在线观看欧美| 91久久精品www人人做人人爽| 欧美承认网站| 亚洲最新在线视频| 午夜精品久久久久久久99樱桃| 国产伦精品一区二区三| 久久精品国产视频| 欧美顶级少妇做爰| 一区二区冒白浆视频| 欧美一区二区高清在线观看| 国产亚洲在线| 亚洲乱码久久| 国产精品激情偷乱一区二区∴| 午夜国产精品视频免费体验区| 久久亚洲综合色一区二区三区| 亚洲国产清纯| 亚洲在线观看免费| 国产偷久久久精品专区| 亚洲国产影院| 欧美三级免费| 亚洲欧美日韩精品久久| 久久影院亚洲| 99re66热这里只有精品3直播| 午夜影视日本亚洲欧洲精品| 韩日欧美一区二区| 一区二区高清在线观看| 国产女同一区二区| 亚洲人精品午夜| 国产精品久久一级| 亚洲高清免费在线| 欧美日韩一区二区三区| 欧美亚洲一区二区在线观看| 欧美成人xxx| 亚洲一级二级| 美女日韩在线中文字幕| 一本色道久久精品| 久久久久国产精品午夜一区| 亚洲经典在线看| 小处雏高清一区二区三区| 一色屋精品视频免费看| 亚洲一区二区三区在线观看视频| 国产视频一区在线观看一区免费| 亚洲精品乱码久久久久久| 国产精品一区二区你懂得| 亚洲日本欧美天堂| 国产精自产拍久久久久久| 亚洲日本成人| 国产毛片精品国产一区二区三区| 亚洲精选在线观看| 国产日韩欧美综合| 亚洲视频欧美在线| 伊人蜜桃色噜噜激情综合| 香蕉av777xxx色综合一区| 亚洲国产精品一区二区第四页av| 亚洲欧美日韩久久精品| 91久久精品国产91性色tv| 久久久999成人| 一本久久a久久免费精品不卡| 久久中文精品| 亚洲欧美日韩精品在线| 欧美日韩亚洲免费| 亚洲国产一二三| 国产日韩在线一区二区三区| 中文日韩在线|