《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于改進TSVM的未知網絡應用識別算法
基于改進TSVM的未知網絡應用識別算法
2016年電子技術應用第9期
李 斌,李麗娟
石家莊職業技術學院 信息工程系,河北 石家莊050081
摘要: 針對訓練集中出現未知網絡應用樣本的識別問題,提出一種基于改進的直推式支持向量機的未知網絡應用識別算法,引入增類損失函數刻畫在訓練過程中新增的未知應用樣本的損失代價,建立TSVM的優化問題并推導其求解過程,使得構造的分類模型能夠實現對未知類別樣本的識別。通過實際網絡數據集進行仿真分析,結果表明所提出的算法在識別未知網絡應用的可行性和有效性方面均有良好表現。
中圖分類號: TP393;TN918.91
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2016.09.025
中文引用格式: 李斌,李麗娟. 基于改進TSVM的未知網絡應用識別算法[J].電子技術應用,2016,42(9):95-98.
英文引用格式: Li Bin,Li Lijuan. Unknown network applications traffic classification algorithm based on improved TSVM[J].Application of Electronic Technique,2016,42(9):95-98.
Unknown network applications traffic classification algorithm based on improved TSVM
Li Bin,Li Lijuan
Department of Information Engineering,Shijiazhuang Vocational Technology Institute,Shijiazhuang 050081,China
Abstract: An unknown network protocol classification method based on improved transductive support vector machine learning is proposed to solve the problem of classifying augmented class when unknown network protocol data appeared in the training process. This method uses the large number of unlabeled samples to assist training classification model, where the augment loss of new unknown class samples is described by the loss augment function. TSVM(Transductive Support Vector Machine) optimization model is established and its solving process is deduced, so the decision boundary can classify the unknown class samples. The performance of the proposed method is examined in simulations with real network data sets. The experimental results illustrate the feasibility and effectiveness of the unknown network applications classified by this proposed method.
Key words : support vector machine;transductive learning;unknown network protocol;traffic classification

0 引言

  根據Internet2 NetFlow組織對骨干網中流量的統計發現:超過40%的網絡數據流屬于未知的應用[1],其中惡意代碼流量占有相當的比例。針對上述問題,需要設計合理、有效的方法快速準確地識別和分析未知應用流量,進而作出相應的控制,提高網絡管理的效率和對網絡攻擊的反應速度。

  網絡流量識別方法根據研究對象的不同可分為基于端口號、基于有效負載和基于流統計特征3種主流的方法。由于未知應用流量一般采用動態端口號或者偽端口號進行傳輸,且應用規范尚未公開,無法獲取其載荷特征,使得基于端口號和基于有效負載這2種方法失去了對其識別的能力。而基于流統計特征方法通過分析網絡流的統計特征,可以實現對未知應用的識別。 然而,傳統的基于流統計特征的機器學習方法對未知應用的識別效果要優于前兩者方法,但嚴重依賴于訓練分類器的樣本集合。

  文中提到的類型應用已知簡稱為已知類,應用類型未知簡稱為未知類。根據訓練集中是否存在未知類樣本,將基于流統計特征的未知應用識別方法大致分為3類:(1)有監督方法[2],通過訓練集中已知類樣本學習構造一個判決邊界,并設定臨閾值,實現對待識別樣本進行預測,測試樣本超出閾值的則認為屬于未知類。由于缺乏未知應用信息,存在判決邊界模糊和臨閾值設定困難問題,識別效果一般。(2)無監督方法[3],通過聚類分析將混合的訓練樣本集聚成幾個簇,實現對已知類和未知類的識別。由于未能有效利用已知類樣本的類別信息,聚類結果面臨解釋困難。(3)半監督方法[4,5],可以有效利用無標記樣本輔助已知類樣本學習構造分類模型,實現對未知樣本的識別。如果未標記樣本出現未知類的樣本,會導致該方法對已知類的效果大大下降,也無法識別出新增未知類的樣本。

  針對上述存在的問題,本文提出了一種基于改進的直推式支持向量機未知網絡應用流量識別算法(UPCTSVM),通過引入增類損失函數刻畫未知類的損失代價,構造的判決邊界能夠實現對未知應用的識別。實驗結果表明,該方法能夠在保證已知類別的識別準確率情況下,有效地識別出未知類數據。

1 問題描述

  本文解決的新增類識別問題可以描述為如下形式:已知原始網絡數據集中包含K類已知類和M類未知類。訓練樣本集為QQ圖片20161114133834.png,其中,yi∈Y={1,2,…,K},屬于已知類。測試樣本集為QQ圖片20161114133841.png,含有新增類的樣本信息,其中,yi∈YO={1,2,…,K,K+1,…,K+M}。由于這些未知類樣本信息在訓練過程中是不可預見的,那么該新增類問題的目標函數可以表示為f(x):\QQ圖片20161114133853.png,其中novel表示樣本x屬于新增加的類別。該目標函數最小化期望錯誤為QQ圖片20161114134116.pngQQ圖片20161114133859.png,其中H為hypnosis空間,誤差函數定義如下:

  QQ圖片20161114132951.png

  其中I(·)表示示性函數,若表達式(1)成立,其值則為1,否則為0。

  根據最大分類間隔理論,所有類別都可以利用最大間隔進行判定,所以利用未標記樣本幫助訓練已知類的最大間隔,可以實現識別已知類和未知類。那么,在增加Du這部分樣本后,該新增類識別問題中用來識別未知類樣本的分類函數可以描述為:

  QQ圖片20161114132955.png

  其中:f(x)∈H代表分類函數,Ih(f,DL)和Iu(f,Du)分別代表訓練集中標記樣本和輔助訓練的未標記樣本的損失函數,Inovel(f,DL)為新增類別樣本的損失函數。C1、C2和C3為影響因子,用于平衡3種不同樣本在目標函數中的損失權重。

2 工作原理

  假設獨立帶標記樣本訓練集(x1,y1),…,(xL,yL),xi∈Rm,yi∈{-1,+1},其中xi為標記樣本向量,yi為樣本所屬類別,+1表示正類,-1表示負類。另一組無標記樣本集:QQ圖片20161114134351.png,輔助訓練分類模型。其中QQ圖片20161114134356.png為線性分類函數,其中QQ圖片20161114134405.png為分類模型的參數,w為最優超平面的向量,b為偏置,得到TSVM的優化問題為:

  QQ圖片20161114132959.png

  其中?灼i和?灼j分別代表標記樣本與無標記的損失式。為了解決多分類問題,需要對式(3)進行擴展,本文采用LEE Y等[6]提出的鉸鏈損失函數對多類數據進行刻畫,引入增類損失函數對無標記樣本集中新增的未知類樣本進行刻畫得到UPCTSVM的優化問題,然后需要對該優化問題訓練K次,每次將某個已知類判為正類(yi=+1),而剩下的所有類別判為負類(yi=-1)。其中3類損失函數分別代表為:

  QQ圖片20161114133002.png

  其中損失函數 Inovel是用來調整控制判決邊界的移動,使得最大分類間隔最小化,I+、I-分別是訓練集中的正例和負例。

  通過式(2)和式(4)訓練得到一個K+1分類器,得到待測樣本x進行的判別函數為:

  QQ圖片20161114133006.png

  當 fnovel為0時,將測試樣本x判為novel。

  為了求解上述的優化問題,需要為 Inovel(f,DL)添加一個約束條件:

  QQ圖片20161114133011.png

  其中參數?姿>0,用來控制正類樣本影響判決邊界的動態調整方向,該約束條件轉換成:

  QQ圖片20161114133016.png

  由于 Iu(f,Du)采用裁剪的對稱鉸鏈損失函數max(0,

  1-|z|)≈Rs(z)+Rs(-z)+const,導致該優化問題仍很復雜,Rs(z)min(1-s,max(0,1-z)),s∈(-1,0]。為了更好地區別Ih和Iu兩種損失函數,Rs(z)也可以用Rs(z)=H1(z)-Hs(z),Hs(z)=max(0,s-z)來表示。

  通過前面分析,式(2)的優化問題轉化為下面最小優化問題:

  QQ圖片20161114133019.png

  其中:J1(?茲)為凸函數,J2(?茲)為凹函數,當L+1≤i≤L+U時,yi=+1;當L+U+1≤i≤L+2U時,yi=-1,且當1≤i≤U時,xL+U+i=xL+i。

  QQ圖片20161114133022.png

   QQ圖片20161114133026.png

  由于在訓練集中正類樣本在Du中所占比例遠小于DL,為了防止將未標記樣本都錯歸為一類,提出約束條件:

  QQ圖片20161114133029.png

  引入文獻[7]中的凹凸求解方法對目標函數進行優化,凹凸求解方法是通過求解一系列不同的子問題,包括凸問題和非凸的問題。在凹凸問題求解過程中每次迭代需要求解下面的子問題:

  QQ圖片20161114133033.png

  該子問題是由一個凸函數和一個線性函數組成,注意到在式(3)仍存在一個非凸約束條件,提出選擇優化方法來求解該子問題。當第t+1次迭代,用固定值QQ圖片20161114134533.png代替 QQ圖片20161114134536.png,式(12)可以轉化為標準的SVM對偶問題及約束條件:

  QQ圖片20161114133036.png

  QQ圖片20161114133040.png

  其中N=L+2U+2+|I-|為對偶變量總數。當QQ圖片20161114134826.pngQQ圖片20161114135046.png時,QQ圖片20161114135104.png,否則為QQ圖片20161114134839.png為核函數矩陣,QQ圖片20161114135321.png。前面L+2U個樣本為已知類的訓練樣本,后面2+|I-|個樣本定義為:

  QQ圖片20161114133043.png

  其中,QQ圖片20161114135453.png。由于該QP問題和標準SVM的對偶問題非常相似,考慮利用BOTTOU L等[8]提出的最小優化算法(Sequential Minimal Optimization,SMO)進行求解,得到最優解為:QQ圖片20161114134902.png。

3 實驗和分析

  3.1 數據集和評價指標

  為了驗證UPCTSVM算法的分類性能,本文將采用2個真實的網絡數據集進行仿真測試,分別是MAWI實驗室提供的WIDE公開網絡數據集[9]和校園網截獲的網絡數據CND。WIDE數據集分別是采集于2010年4月13日共4個小時的流量和2012年3月30日共5個小時的流量;CND數據集在校園主干網采集4個小時的流量。提取流行的9種應用層協議對文中算法的性能進行評估,分別為HTTP、SSH、SSL、FTP、SMTP、POP3、SMB、DNS和IMAP。為了減少樣本分布不均衡的影響,樣本超過5 000的類隨機抽取5 000個樣本,小于5 000的類保持原有樣本,組成一個含有32 978個樣本的實驗數據集,詳細信息如表1所示。實驗中,本文提取20個單向流的統計特征作為代表樣本信息,然后利用特征選擇算法剔除不相關或冗余的特征,得到其中的9個特征,詳細的描述如表2所示。在實驗過程中,將HTTP、SSL、FTP、SMTP、POP3、DNS和IMAP分別標記為序號1~7。各類樣本按照一定比例,分別組成訓練樣本集、未標記樣本集和測試樣本集。

圖像 005.png

圖像 006.png

  為了驗證UPCTSVM算法的有效性,將與其他3種算法(OVR-SVM[10]、MOCSVM[4]和MULTIpLE[5])分別進行性能比較,采用整體識別準確率(Overcall-Precision)和調和均值(F-measure)作為評價指標。每次實驗重復10次,取其平均值作為實驗結果。

  3.2 實驗結果分析

  (1)測試1:不同算法的識別性能比較。實驗過程中,隨機選擇5種應用作為已知類,剩余2種作為未知類進行測試,訓練集中各類標記樣本數為200,未標記樣本為200,剩余作為測試樣本。圖1和圖2分別表示各類算法在不同訓練集上的整體識別準確率和未知類的F-measure值。從結果可以看出,本文提出的算法利用未標記樣本輔助訓練分類模型可以有效準確地識別出新增未知類數據,其整體識別準確率和未知類的識別效果均優于其他算法。因為OVR-SVM算法無法識別新增的未知類,在判別過程中未知類樣本都被誤判為已知類,導致其識別效果最差;另外2種算法雖然都具備一定的未知類識別能力,但未能有效利用未標記樣本中未知類的樣本信息,使得整體識別效果和未知類的F-measure值也都比較差。

圖像 001.png

圖像 002.png

  (2)測試2:不同未標記樣本對UPCTSVM算法的識別性能的影響。圖3和圖4分別表示訓練集中標記樣本數為100和200的情況下,不同的未標記樣本輔助訓練得到的整體識別準確率和新增未知類的F-measure值的曲線圖。結果顯示,該算法的整體識別準確率和未知類的F-measure值均隨著輔助未標記樣本的增加而逐漸提高,說明在訓練集標記樣本數一定的情況,含有未知類的未標記樣本的增加有助于提高分類器識別未知類樣本的能力。

圖像 003.png


圖像 004.png

4 結束語

  針對訓練集中出現未知應用的識別問題,本文提出一種改進直推式支持向量機的未知應用識別算法,通過獲取與訓練集相同網絡環境下的未標記樣本,包含著未知應用的數據樣本,用來輔助訓練分類模型,引入增類損失函數刻畫新增未知類樣本的損失代價,使得構造的判決邊界能夠識別出未知應用樣本。實驗結果表明,與其他算法相比,本文提出的算法在識別未知網絡應用的可行性和有效性方面均有良好表現。

  參考文獻

  [1] 王一鵬,云曉春,張永錚,等.基于主動學習和SVM方法的網絡應用識別技術[J].通信學報,2013,34(10):135-142.

  [2] KUZBORSKIJ I,ORABONA F,CAPUTO B.From n to n+1:Multiclass transfer incremental learning[C].Proce.of the 26th IEEE Conference on Computer Vision and Pattern Recognition,2013:3358-3365.

  [3] 王變琴,余順爭.未知網絡應用流量的自動提取方法[J].通信學報,2014,35(7):164-172.

  [4] ZHOU Z H,LI M.Tri-training:Exploiting unlabeled data using three classifiers[J].Knowledge and Data Engineering,IEEE Transactions on,2005,17(11):1529-1541.

  [5] 李洋,方濱興,郭莉,等.基于直推式方法的網絡異常檢測方法[J].軟件學報,2007,18(10):2595-2604.

  [6] LEE Y,LIN Y,WAHBA G.Multi-category support vector machines, theory,and application to the classification of microarray data and satellite radiance data[J].Journal of the American Statistical Association,2004,99(465):67-81.

  [7] COLLOBERT R,SINZ F,WESTON J,et al.Large scale transductive SVMs[J].The Journal of Machine Learning Research,2006,7(8):1687-1712.

  [8] BOTTOU L,LIN C J.Support vector machine solvers[J].Large Scale Kernel Machines,2007,3(1):301-320.

  [9] WAWI Working Group.Packet traces from WIDE backbone [EB/OL].[2016-03].http://mawi.wide.ad.jp/mawi/.

  [10] ALLWEIN E L,SCHAPIRE R E,SINGER Y.Reducing multiclass to binary:A unifying approach for margin classifiers[J].The Journal of Machine Learning Research,2001,1(2):113-141.

  

  

  


此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲一区二区免费视频| 久久成人精品视频| 亚洲综合三区| 最新热久久免费视频| 国产欧美一区在线| 欧美日韩一区在线观看| 欧美成人精品三级在线观看| 午夜影视日本亚洲欧洲精品| 一本色道久久精品| 亚洲一区精彩视频| 狠狠网亚洲精品| 国产精品在线看| 国产精品麻豆va在线播放| 欧美日本一区二区三区 | 亚洲国产高清一区二区三区| 亚洲视频在线观看三级| 日韩亚洲欧美在线观看| 91久久中文| 亚洲激情不卡| 亚洲国产日韩一区| 国产一区二区精品久久| 国产精品永久| 国产啪精品视频| 国产裸体写真av一区二区| 国产精品乱人伦一区二区| 国产精品www网站| 欧美韩日一区二区| 欧美成人精品高清在线播放| 麻豆freexxxx性91精品| 老司机aⅴ在线精品导航| 久久欧美肥婆一二区| 久久美女艺术照精彩视频福利播放| 欧美影院成人| 亚洲欧美卡通另类91av| 午夜激情综合网| 先锋影音网一区二区| 午夜亚洲影视| 欧美一级免费视频| 久久精品二区亚洲w码| 久久精品午夜| 久久影音先锋| 美日韩丰满少妇在线观看| 免费日韩视频| 欧美激情女人20p| 欧美日韩高清一区| 欧美色综合网| 国产精品日日摸夜夜添夜夜av| 国产精品v亚洲精品v日韩精品| 国产精品国产三级国产普通话99 | 国产精品久久久久久久9999| 欧美性大战xxxxx久久久| 国产精品国产三级国产aⅴ入口| 国产精品久久久久久久一区探花| 国产精品二区在线观看| 国产女主播一区二区| 国产在线欧美| 91久久极品少妇xxxxⅹ软件| 黄色成人av网| 亚洲欧洲三级电影| 亚洲视频自拍偷拍| 久久9热精品视频| 亚洲国产精品成人久久综合一区| 亚洲每日在线| 亚洲综合第一页| 久久精品国亚洲| 欧美电影免费网站| 欧美日韩亚洲综合| 国产日韩高清一区二区三区在线| 国内精品久久久久影院薰衣草| 亚洲承认在线| 一区二区三区偷拍| 亚洲伊人网站| 亚洲第一在线| 亚洲视频第一页| 久久精品国产清高在天天线| 免费一级欧美片在线观看| 欧美区二区三区| 国产精品一区一区三区| 亚洲丰满在线| 亚洲视频国产视频| 亚洲国产成人av好男人在线观看| 中国成人亚色综合网站| 久久成人免费网| 欧美噜噜久久久xxx| 国产视频综合在线| 99在线精品视频在线观看| 一区二区三区四区国产| 亚洲第一精品在线| 亚洲午夜在线视频| 美日韩在线观看| 国产精品色午夜在线观看| 狠狠狠色丁香婷婷综合激情| 亚洲美女黄网| 亚洲精品综合久久中文字幕| 久久久久免费观看| 国产精品区一区二区三| 日韩一二三区视频| 亚洲免费观看在线视频| 美日韩丰满少妇在线观看| 国产一区亚洲一区| 亚洲欧美日韩电影| 午夜国产精品视频| 国产精品久久九九| av不卡在线观看| 99av国产精品欲麻豆| 欧美成人精品福利| 亚洲国产精品一区二区三区| 久久精品免费| 久久中文字幕一区| 黄色国产精品一区二区三区| 午夜一区不卡| 久久国产精品久久久久久久久久 | 亚洲欧美一区二区激情| 亚洲欧美精品伊人久久| 国产精品99免视看9| 99国产精品国产精品久久| 99综合视频| 欧美母乳在线| 亚洲精选成人| 在线天堂一区av电影| 欧美日韩美女| 99精品视频免费| 亚洲小说区图片区| 国产精品久久久对白| 亚洲一级黄色片| 午夜久久福利| 国产农村妇女精品一区二区| 午夜精品久久久久久久久久久久 | 久久视频一区| 伊人婷婷欧美激情| 亚洲人成高清| 欧美国产在线电影| 亚洲精品社区| 亚洲自拍偷拍福利| 国产精品一区免费观看| 欧美中文在线免费| 欧美成人精品影院| 亚洲精品久久| 亚洲欧美日韩国产一区| 国产精品系列在线播放| 欧美一二三视频| 久久综合五月天婷婷伊人| 亚洲成人在线网| 正在播放亚洲| 国产麻豆日韩欧美久久| 久久精品国产999大香线蕉| 免费在线观看日韩欧美| 亚洲日韩欧美视频| 亚洲欧美另类在线观看| 国产日韩一区二区三区在线播放| 久久国产精品电影| 欧美久久久久久蜜桃| 中国av一区| 久久婷婷国产综合尤物精品| 亚洲国产成人在线视频| 亚洲视频欧美在线| 国产日韩1区| 亚洲精品一区二| 欧美性久久久| 亚洲福利视频一区二区| 欧美美女视频| 午夜在线精品偷拍| 欧美成人亚洲| 亚洲一品av免费观看| 久久综合狠狠综合久久激情| 亚洲精品国产精品国自产在线 | 国产精品美女久久久久久久| 欧美在线观看日本一区| 欧美精品麻豆| 午夜视频在线观看一区二区| 欧美成人福利视频| 亚洲在线一区二区三区| 免费短视频成人日韩| 99在线|亚洲一区二区| 久久免费午夜影院| 99re6热只有精品免费观看| 欧美中文字幕在线播放| 亚洲国产综合91精品麻豆| 午夜精品短视频| 亚洲福利在线看| 欧美一区二区三区免费观看| 亚洲国产精品激情在线观看| 亚洲欧美中文日韩v在线观看| 在线观看91精品国产麻豆| 亚洲免费人成在线视频观看| 在线日韩中文| 午夜在线观看免费一区| 亚洲激情网站免费观看| 欧美伊人久久| 9i看片成人免费高清| 久久影院午夜片一区| 亚洲一区在线直播| 欧美日韩国产bt| 亚洲第一黄色网| 国产欧美精品日韩区二区麻豆天美| 日韩午夜在线视频| 国内一区二区三区在线视频| 亚洲夜间福利| 亚洲激情啪啪| 麻豆精品在线观看|