《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于殘差統計的時間序列加性離群點檢測算法研究
基于殘差統計的時間序列加性離群點檢測算法研究
張 玲,劉 波
國家數字交換系統工程技術研究中心,北京100094
摘要: 針對時間序列,提出了一種基于殘差統計的加性離群點檢測算法,利用AR模型對時間序列進行前向與后向擬合;采用了數據相對變化率判別法減少離群點對擬合的影響;根據假設檢驗原理,以高斯分布統計檢驗對殘差進行統計分析并最終確定離群點。仿真結果表明,該方法對離群點檢測有較高的準確性。
中圖分類號: TP311.11
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2015.09.023

中文引用格式: 張玲,劉波. 基于殘差統計的時間序列加性離群點檢測算法研究[J].電子技術應用,2015,41(9):85-87,91.
英文引用格式: Zhang Ling,Liu Bo. Residuals statistics-based additive outlier detection algorithm for time series[J].Application of Electronic Technique,2015,41(9):85-87,91.
Residuals statistics-based additive outlier detection algorithm for time series
Zhang Ling,Liu Bo
China National Digital Switching System Engineering and Technological Research Center,Beijing 100094,China
Abstract: We propose a residuals statistics-based additive outlier detection algorithm for one-dimensional time series, The basic idea is using time series AR model for forward and backward fitting. In order to reduce the influence of outlier, we use data’s relative change rate to preliminary judge the outlier. According to hypothesis testing theory and Gauss distribution statistic testing, we find out the outliers. The simulation results show that the this method has good performance on outlier detection.
Key words : time series;outlier;AR model;Gauss distribution


0 引言
    在時間序列數據挖掘中,不可避免地存在一些遠離序列一般水平的極端大值和極端小值,或者與其他序列樣本點一般行為或特征不一致的點值,這些點被稱做離群點。離群點的產生可能是采樣中的誤差,也可能是被研究對象本身由于受各種偶然非正常的因素影響而引起的。一方面,離群點的存在會影響時間序列模式表示,可能使數據挖掘陷入混亂,導致在隨后的數據處理過程中產生偏差或誤導;另一方面,離群點可以提供一些潛在的重要信息。目前,時間序列離群點檢測作為對數據進行挖掘處理的第一步,已經成為該研究領域的重要方向之一,并廣泛應用于通信流量監測、工業故障診斷、金融貿易等方面。
    時間序列中的離群點有很多類型,按照出現的個數,可以分為孤立離群點和成片離群點,按照產生的影響可以分為加性離群點AO(Additive Outlier)、更新離群點IO(Innovational Outlier)、水平移位離群點LS(Level Shift Outlier)和暫時變更離群點TC(Temporary Change Outlier)[1]。本文主要對時間序列中的加性離群點檢測方法進行研究,并在此基礎上提出了一種基于殘差統計的檢測方法,仿真結果表明該方法在檢測加性離群點方面具有較好的性能。
1 離群點檢測方法研究
    針對無序的數據集,離群點檢測方法主要有基于統計的方法、基于距離的方法[4]、基于密度的方法[5]和基于偏離的方法。近年來,不少研究人員提出了專門針對時間序列的離群點檢驗算法,主要有統計診斷方法、貝葉斯方法、遺傳算法、人工神經網絡、小波檢測等。國內也有相關人員對此做了深入的研究[2-5]。文獻[6]提出了基于粗糙集理論的序列離群點檢測方法,它利用粗糙集理論中的知識熵和屬性重要性等概念來構建三種類型的序列,并通過分析序列中元素的變化情況來檢測離群點。文獻[7]通過建立多變量時間序列數據相似度矩陣,對相似度矩陣進行轉換以最大化數據之間的相關性,并采用隨機游走模型計算數據點之間的連接系數來檢測數據點上的異常。文獻[8]指出離群點與它所在時間段內的其他數據不具有相似性,從時序圖上看,離群點相對于它相鄰區域內的數據具有很強的跳躍性,進而提出基于數據相對變化率的時間序列離群點識別方法。
2 基于殘差統計的加性離群點檢測算法
2.1 問題提出

    對于時間序列,離群點可能會隱藏在時間序列的趨勢、季節或其他變化中,增加了檢測難度。以圖1所示的時間序列為例,兩個時間序列都處于上升趨勢,A點明顯偏離了整個趨勢,應判定為離群點;B點雖然與前向時刻點在幅度變化率上發生了較大變化,但符合后向時刻點的變化趨勢,是一個正常時間序列點,因此不應判定為離群點。

201509b-tx1t1.jpg

圖1  受加性離群點“干擾”的時間序列與正常時間序列

    本文以一維時間序列為研究對象,提出了一種基于殘差統計的加性離群點檢測算法,基本思想是利用p階AR模型對時間序列進行前向與后向擬合,得到每個時間點擬合殘差。采用了鄰域區間變化率判別法對離群點進行初判,初判的疑似離群點不參與擬合運算。最后根據高斯分布假設檢驗的方法對殘差進行統計分析并最終確定離群點。
    定義待檢測時間序列數據樣本為xt,t=1,2,3,4…M,xt∈R,并做如下假設:
    (1)離群點隨機分布;
    (2)正常數據的數量遠大于離群點數量。
2.2 算法描述
2.2.1 鄰域區間變化率

    定義1 鄰域區間變化率:時間序列各時刻點與相鄰前后時刻的幅度變化率。設時刻t的鄰域區間變化率為δt,則:
    δt=|(xt-xt-1)+(xt-xt+1)|
    對所有δt進行考慮,選定門限δ,δ值的計算可以采用平均法或加權計算等。若δt>δ,則將xt標志為LK點(疑似離群點),否則標志為uLK點(非疑似離群點)。
    離群點相對于它前后相鄰數據都會有較大變化,因此鄰域區間變化率要同時對前向時刻和后向時刻進行考慮。定義LK點和uLK點是為了在擬合過程中盡量減少離群點的影響,對疑似離群點不作擬合參考。
2.2.2 AR模型擬合與參數計算
    擬合常用的模型有AR模型、MA模型、ARIMA模型等。AR模型一般用于擬合平穩的時間序列,而時間序列從局部來看近似一個平穩的過程,并且AR模型結構相對簡單,擬合精度較高,因此本文選用p階自回歸AR模型。為了準確反應各檢測點的局部變化屬性,并減少離群點對參數估計的影響,本文在文獻[9]所采用的兩窗口模型基礎上,提出了改進的窗口計算模型,基本原理是:檢測窗口僅包含t時刻待檢測點,前向學習窗口和后向學習窗口位于檢測窗口鄰近兩側,寬度為N,并且N>p,根據前向和后向學習窗口中的數據分別對t時刻待檢測點進行前向和后向擬合,采用剪枝思想,若學習窗口中包含疑似離群點LK,則該點退出學習窗口不參與計算,其余時間軸上的uLK點向t時刻整體移位并填滿窗口。如圖2所示。

201509b-tx1t2.jpg

圖2  改進的窗口模型

K[%M%%%LUM]HI4JEPTUTXWY.png

2.2.3 高斯統計檢測
    基于假設檢驗理論,在一定的顯著性水平下,擬合殘差εt近似服從高斯分布,即ε~N(u,σ2)。并且在假設2前提下,高斯分布作為殘差統計模型對離群點判決同樣具有較高置信度。在此,選擇高斯分布做為統計模型,εt的概率密度為:
B[}C05N)K]M2BR%YK5ZZ%T5.png

3 仿真
    為了驗證本文所提算法的有效性,以局域網內某主機通信流量監測數據為對象進行測試。通信流量監測是網絡管理的重要內容,通過流量監測,可以全面透視網絡的流量控制,快速定位和發現網絡故障,并保障關鍵應用的穩定運行,減少泄密風險。一般情況下,主機通信流量的具體業務包括Web、Telnet、SNMP、請求應答數據包等,在仿真實驗中,通過隨機加入異常事件,比如網絡擁塞、數據分發等來模擬加性離群點。
    圖3所示為某日上午8:00-12:00的某主機通信流量監測數據,單位為KB/min,數據樣本200個,離群點5個。窗口寬度取15,模型階數取4,擬合殘差分布情況如圖4所示。由圖看出,擬合后,離群點的殘差值與正常的浮動范圍相比有較大偏移。

201509b-tx1t3.jpg

圖3  加入AO的通信流量監測數據

    為了驗證算法對離群點數量的魯棒性,在200個流量監測數據樣本點中分別隨機加入5、10、15、20個離群點,擬合計算的窗口寬度取15,模型階數取4,概率判決臨界值分別取0.95、0.95、0.9、0.9。在仿真測試中并未使用離群點數量先驗知識。在此定義兩個檢測指標:

201509b-tx1t4.jpg

圖4  擬合殘差

    檢出率:檢測出的真實離群點數量與實際離群點數量之比。
    誤檢率:檢測出的錯誤離群點數量與實際離群點數量之比。

)@OK9M_IDAFJTP@ZD$(~A5L.png

    檢測統計結果如表1所示。結果顯示,當實際離群點數量在樣本中的比重小于0.05時,算法能對離群點進行完全有效地檢測,當實際離群點數量在樣本中的比重大于0.1時,檢出率下降,誤檢率有所上升,但此時離群點的發生不再是小概率事件,根據加性離群點對時間序列產生的影響上看,它不符合加性離群點特征。因此,本文所提算法對檢測時間序列中的加性離群點有較好的性能,同時,在實際應用中證明該算法對其他類型離群點的檢測也有一定的魯棒性。
4 結論
    本文針對時間序列中的加性離群點檢測,提出了一種基于殘差統計的檢測算法。該算法利用AR模型計算每個樣本點擬合殘差,通過統計分析殘差的概率分布來判別離群點。通過對局域網某主機通信流量監測數據的仿真結果顯示,該算法在檢測加性離群點方面是有效的,結果有較高的置信度。此外,在對擬合殘差進行分析時,除了本文采用的統計模型方法外,還可以采用基于密度的聚類的方法。另外如何檢測時間序列中其他類型的離群點也是值得研究的內容。
參考文獻
[1] 胡云,王崇駿,謝俊元,等.社群演化的隱健遷移估計及演化離群點檢測[J].軟件學報,2013,24(11):2710-2720.
[2] Hu Tianming,Sung Sam Yuan.A trimmed mean approach to finding spatial outliers[J].Intelligent Data Analysis,2004,8(1):79-95.
[3] ALARCON-AQUINO V,BARRIA J A.Anomaly detection in communication networks using wavelets[J].Communications,IEEE,2001,148(6):355-362.
[4] 劉耀宗,張宏,孟錦,等.基于小波密度估計的數據流離群點檢測[J].計算機工程,2013,39(2):178-181.
[5] 江峰,杜軍威,葛艷,等.基于粗糙集理論的序列離群點檢測[J].電子學報,2011(2):345-350.
[6] 李權,周興社.一種新的多變量時間序列數據異常檢測方法[J].時間頻率學報,2011,34(2):154-158.
[7] 周勇.時間序列時序關聯規則挖掘研究[D].成都:西南財經大學,2008.
[8] 蘇衛星,朱云龍,胡琨元,等.基于模型的過程工業時間序列異常值檢測方法[J].儀器儀表學報,2012(9):2080-2087.
[9] 皇甫堪,陳建文,樓生強.現代數字信號處理[M].北京:電子工業出版社,2003.
[10] 薛安榮,鞠時光,何偉華,等.局部離群點挖掘算法研究[J].計算機學報,2007(8):1455-1463.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美黄色成人网| 狠狠入ady亚洲精品| 久久国产精品亚洲77777| 一区二区高清在线观看| 亚洲精品1区2区| 久久精品国产亚洲一区二区| 午夜精品久久久久久久99樱桃| 一本色道久久综合精品竹菊| 日韩一级不卡| 99精品欧美一区二区蜜桃免费| 亚洲国产欧美日韩另类综合| 亚洲国产精品美女| 国内精品久久久| 国产日韩欧美一区在线| 国产女主播在线一区二区| 国产精品日韩欧美一区二区| 国产精品美女诱惑| 国产精品女主播在线观看| 国产精品色午夜在线观看| 国产精品性做久久久久久| 国产精品一级在线| 国产欧美视频在线观看| 国产香蕉97碰碰久久人人| 国产在线观看91精品一区| 国产在线国偷精品产拍免费yy| 国产在线精品一区二区夜色| 国产又爽又黄的激情精品视频| 国产一区在线看| 激情婷婷欧美| 在线精品国精品国产尤物884a| 亚洲第一综合天堂另类专| 亚洲日本中文字幕| 亚洲精选中文字幕| 一本久久a久久免费精品不卡| 一区二区三欧美| 午夜精品久久| 久久精品视频在线| 亚洲毛片在线观看| 亚洲无限av看| 欧美一区影院| 鲁大师成人一区二区三区 | 欧美视频中文在线看 | 久久久xxx| 狠狠色噜噜狠狠色综合久| 欧美日韩国产精品自在自线| 国产精品sm| 国产亚洲亚洲| 亚洲国产日韩欧美综合久久| 一区二区免费看| 香蕉久久夜色精品国产使用方法| 亚洲第一精品在线| 一区二区毛片| 久久经典综合| 欧美美女bb生活片| 国产日韩精品一区| 亚洲国产综合在线| 亚洲欧美一区二区原创| 亚洲国产欧美久久| 亚洲一区二区三区四区中文| 久久久噜噜噜久久狠狠50岁| 欧美精品国产一区| 国产午夜精品美女毛片视频| 亚洲韩国日本中文字幕| 亚洲一区日本| 亚洲精品四区| 久久精品99国产精品日本| 欧美日韩国产在线一区| 国产亚洲精品美女| 亚洲日本理论电影| 久久国产婷婷国产香蕉| 亚洲午夜国产一区99re久久| 久久久久久久综合| 欧美日韩在线不卡一区| 狠狠做深爱婷婷久久综合一区| 99一区二区| 亚洲高清不卡在线观看| 亚洲欧美日韩综合| 欧美极品在线播放| 国产一区二区三区奇米久涩| 一本一本大道香蕉久在线精品| 亚洲国产另类久久精品| 欧美一区激情| 欧美日韩一卡| 尤物在线精品| 亚洲欧美日韩另类精品一区二区三区| 日韩小视频在线观看专区| 欧美在线视频一区| 国产精品久久久久久久久久ktv| 一区久久精品| 欧美在线精品一区| 欧美一级二区| 欧美丝袜第一区| 91久久夜色精品国产九色| 欧美制服第一页| 午夜精品亚洲| 欧美午夜电影完整版| 亚洲国产精品www| 久久精品国产99国产精品| 亚洲欧美一区在线| 欧美日韩一区二区免费视频| 亚洲国产精品v| 亚洲国产日韩欧美| 国产精品网站一区| 91久久精品国产91久久性色| 午夜久久tv| 欧美日韩在线视频一区二区| 亚洲人成网站777色婷婷| 久久精品视频播放| 久久精品最新地址| 国产麻豆午夜三级精品| 亚洲一级黄色av| 亚洲欧美另类在线| 国产精品草草| 中日韩在线视频| 亚洲一区免费| 欧美午夜视频在线| 一本色道久久综合狠狠躁篇怎么玩 | 亚洲精品欧美在线| 日韩视频二区| 欧美久久综合| 亚洲伦伦在线| 在线午夜精品| 欧美色精品天天在线观看视频 | 亚洲国产日韩欧美| 女主播福利一区| 永久域名在线精品| 亚洲国产一二三| 欧美高清视频一区| 亚洲人成亚洲人成在线观看图片| avtt综合网| 欧美日韩免费观看一区=区三区| 亚洲精品麻豆| 亚洲天天影视| 国产精品久久久久一区二区| 亚洲制服丝袜在线| 新67194成人永久网站| 国产日韩在线看| 亚洲成人在线网| 欧美国产精品人人做人人爱| 亚洲三级网站| 亚洲欧美日韩第一区| 国产乱码精品一区二区三区不卡| 午夜国产精品视频| 久久久亚洲欧洲日产国码αv| 一色屋精品视频在线看| 亚洲免费av观看| 欧美午夜精品一区二区三区| 亚洲一区精品在线| 久久精品国产77777蜜臀| 伊人婷婷欧美激情| 日韩小视频在线观看| 欧美网站大全在线观看| 午夜精品久久久久久久久久久久| 久久久999国产| 亚洲国产日韩欧美一区二区三区| 亚洲一区二区免费视频| 国产欧美一区二区三区在线老狼 | 亚洲美女视频在线观看| 亚洲精品久久久一区二区三区| 欧美精品18videos性欧美| 亚洲黄色av一区| 亚洲影视在线| 国产在线国偷精品产拍免费yy| 亚洲日本中文字幕| 欧美亚洲第一区| 久久国产乱子精品免费女 | 亚洲精品一区二| 国产精品免费看片| 久久精品国产欧美亚洲人人爽| 欧美激情一区二区三区全黄| 亚洲自拍偷拍视频| 蜜桃久久av| 亚洲伊人色欲综合网| 欧美成人午夜免费视在线看片 | 一区二区免费在线播放| 国产女人精品视频| 亚洲免费观看高清完整版在线观看| 国产精品麻豆va在线播放| 亚洲福利一区| 国产精品乱码妇女bbbb| 最新高清无码专区| 国产精品久久久久毛片软件| 亚洲国产精品成人久久综合一区| 欧美色欧美亚洲高清在线视频| 久久精品国产一区二区电影| 欧美视频在线一区二区三区| 亚洲国产精品一区二区www| 国产精品美女久久久久av超清 | 欧美福利一区二区| 亚洲欧美激情四射在线日 | 亚洲精品日韩在线观看| 国产精品永久| 99在线热播精品免费| 国内久久视频| 欧美亚洲综合另类| 99这里只有精品| 欧美激情片在线观看| 久久国产天堂福利天堂| 国产精品综合不卡av| 亚洲一区免费网站|