文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2018.S1.057
0 引言
反竊電工作是電網公司的重點工作之一,隨著地區經濟的持續增長,居民生活水平不斷提升,電力需求增長的同時,竊電現象卻越發嚴重,竊電的手段也多種多樣,由以前的跨表用電向現在的高科技竊電演變,使得竊電排查工作更加困難。竊電問題嚴重影響了電網公司正常的供電秩序,嚴重危害了公共安全和社會穩定。因此提高竊電用戶排查的準確性和覆蓋面迫在眉睫[1-3]。
本項目基于用電信息采集系統和營銷業務應用系統積累的海量用戶用電信息,綜合考慮各種竊電特征,建立用戶竊電概率分析模型,通過機器學習算法分析手段,力求較為準確地定量分析出各用戶的竊電嫌疑水平,以提高竊電嫌疑用戶鎖定精度。建立預警、排查和處理的閉環工作機制,加大反竊電的查處懲治力度,保障企業經營效益。
1 研究現狀
據了解,現階段國內多個研究結構在反竊電研究領域有各自的特點,例如:研究的數據范圍主要是以電壓、電流、三相不平衡為主的高壓用戶竊電識別;以功率、負荷、臺戶關系等為出發點,研究發生竊電行為時的間接表現形式;以專家經驗判斷的比較粗糙的過濾規則等[4]。
這些研究方法都有很多的片面性,例如數據維度較少、只針對高壓用戶、分析方法比較簡單等,在實際應用中并沒有達到理想效果。雖然在某些情況下也能有一定的表現效果,但是如果推廣到全量用戶的竊電識別下,就會顯得不太適用,即使使用了高精準度的模型算法,如果沒有選擇最合適的數據范圍,仍然達不到理想的識別效果[5-6]。
2 研究思路
本文基于已有的數據挖掘在反竊電場景的研究成果,來實現全量數據、多維用戶特征、高精度模型算法的竊電用戶精確識別,并便于輕量部署應用,以支撐業務人員的反竊電工作[7]。改進方向主要體現在:
(1)本次研究以某省全量用戶的用戶群體為分析目標,對各類型的用戶有普遍的適用性,便于在后期的應用中快速推廣部署。
(2)數據范圍以全量歷史用電數據、用戶基礎特征信息數據及臺區線損數據為主,構建特有的用電特征量,可以直接反映出發生竊電時的數據特點。
(3)本次研究在多個前沿的機器學習模型基礎上,進行了多重交叉驗證與自適用優化策略,取得很高的精準度,可實現模型的自學習過程與智能優化。
(4)建立了針對性的高維度特征工程,對特定的用戶群體進行單獨標記識別,可識別周期性用電與不規律用電。
(5)研究成果可輕量部署在國網公司內部服務器上,操作簡單易懂,可定期輸出某地區的疑似竊電用戶清單,供排查人員線下查訪。
一般發生竊電的情況下,最直接會體現在用電量的異常上。本文所研究內容,以全量用戶的歷史用電數據為中心,構建基于用戶特征的用電量挖掘模型,從多個時間維度構建深度用電量特征量。
從不同的竊電手段來看,對電表動手腳的竊電的行為會導致用戶用電量減少,根據竊電方式不同和竊電嚴重程度很可能會出現用電量突降、電能示值逆向減少的異常現象,因此可利用電表日凍結電能示值及天、周、月不同時間周期的多種統計值判斷用電趨勢的異常走向和不規律用電;對于越表竊電的行為,竊電量大的會導致臺區線損異常增大,可以根據臺區線損的變化情況判斷臺區用戶的嫌疑概率;同時電壓等級、行業分類、用戶分類、用電容量等用戶特征也是區分竊電用戶的重要特征,可以增強模型對各類別用戶的區分功能。竊電識別流程如圖1所示。
3 數據處理
3.1 數據范圍
竊電行為發生后會直接體現在用電量的異常變化和線損的增高,所以本次研究選取某地區全量的用戶數據,以用電戶檔案信息、電能表示數值的數據、臺區線損數據及歷史竊電記錄數據為主要分析數據,如表1所示。
3.2 計算特征統計量
通過對基礎數據的探索,確定選取用戶電能示數表的部分數據為主要建模原始數據。其次,通過對歷史竊電用戶歷史電能表走勢的變化情況進行探索總結,并結合業務知識,以用電量數據的多種統計指標為依據,精準區分出用電量異常情況下數據的表現特征,用此特征量數據輸入模型,可達到明顯的效果。選定竊電用戶與未知用戶的電能示數數據進行以下處理:
(1)計算匯總每個用戶不同時間周期下的用電量數據;
(2)計算每個用戶相鄰時間周期之間的差異變化;
(3)計算線損率與當月度匯總用電量的相關性,并設定權重值;
(4)對用戶基礎信息數據進行分類編碼。
對以上數據表進行多維度統計匯總,計算得出多種指標,分別代表各時間周期下用戶每日的用電量和用電量差異的統計指標,包括均值、標準差、極差、50%分位區間、中位數、偏度、峰度及日用電量小于等于0的次數等。
4 模型算法
利用數據處理得出的50個維度的特征變量,構建多種分類模型算法,經過多重交叉驗證的對比篩選,選擇表現效果最好的模型進行最終的分類預測。Adaboost算法屬于集成學習算法,是Boosting 算法家族中代表算法,通過若干個弱分類器,整合為一個強分類器的方法來提高學習準確性,AdaBoost 算法就是將容易找到的識別率不高的弱分類算法提升為識別率很高的強分類算法。
4.1 建模過程
經過加工后的特征量包括用電曲線特征和用戶檔案特征,例如用電量數據在不同時間段下的多種統計量、用戶電壓等級、行業類型等。AdaBoost算法通過對用戶特征集的訓練產生不同的分類器,每次迭代都通過計算誤差率來改變樣本權重,也就是提高分錯樣本權重,重點對分錯樣本進行訓練,直到達到迭代次數或者損失函數小于某一閾值,如圖2所示。
(1)初始化每個訓練樣例的權值,共M個訓練樣例。
(2)共進行N輪學習,第n輪學習過程如下:
① 使用權值分布為Wn的訓練樣例學習得到基分類器Gn;
② 計算上一步得到的基分類器的誤差率;
③ 計算Gn前面的權重系數;
④ 更新訓練樣例的權重系數;
⑤ 重復步驟①~④,得到一系列的權重參數an和基分類器Gn。
(3)通過臺區線損計算出線損修正系數,臺區線損越高,其竊電嫌疑越高,得出最終用戶竊電嫌疑概率。
4.2 模型結果
模型結果如表2所示,列表中分別為電表編號、歷史竊電記錄標識、預測分類及各分類的概率。以竊電概率大于50%作為劃分疑似竊電用戶和正常用戶的邊界,實際應用中可以根據實際情況調高此分界值。
圖3為對應的ROC曲線,曲線整體靠近左上角,其中,準確率為96%,召回率為93%,模型結果的準確率較好,召回率也較高,預測準確性較高。
4.3 模型成效
選取某地區全量用戶進行竊電用戶識別,識別出較多電表頻繁歸零、電表逆走、異常波動等情況,其中某用戶電能示值曲線如圖4所示,實地排查后找出部分用戶確有真實竊電的行為,其余疑似竊電用戶雖未找到竊電的證據,但是由于用戶無法解釋異常的用電曲線,也同樣判定為重點監控目標。
5 結束語
本次研究是基于用戶全量特征,針對全量用戶做的分析,對各類型的用電戶有普遍適用性,適合開展大面積的排查工作。模型可以進行輕量部署,定期支持常規用電檢查和專項反竊電活動。
基于反竊電模型的成果,可以進一步開展研究工作。例如結合擴報裝新用戶的用戶畫像和用電負荷模擬情況,將用戶實際用電量和預測用電量比對,提前預測用戶的用電行為;也可以結合智能電表的實時采集信息進行實時監控,在發現異常的第一時間及時報警;也可以將反竊電的成果和臺區線損治理、營配調貫通治理的工作結合起來,相互配合,通過數據治理的成果提升數據的可靠性。
參考文獻
[1] 建峰,葛健.基于用電行為的反竊電智能分析系統[J].電力設備,2016(23).
[2] 林志堅, 姚偉智, 黃朝凱, 等. 基于用電行為分析的反竊電在線監測及智能診斷系統研究[J]. 新技術新工藝, 2015(5): 137-140.
[3] 周文婷, 顧楠, 王濤, 等. 基于數據挖掘算法的用戶竊電嫌疑分析[J]. 河南科學, 2015, 33(10): 1767-1772.
[4] 于光輝,耿桂森.基于用電信息采集系統的防竊電措施[J].山東電力技術,2014, 41(3): 49-51.
[5] 陳鵬飛. 基于用電信息采集系統的竊電在線稽查裝置的開發應用[D].北京:華北電力大學,2013.
[6] 張瑞. 基于用電信息數據挖掘的智能反竊電研究與應用[J]. 價值工程, 2016, 35(35): 51-54.
[7] 柴鵬飛,陳國棟.數據分析在反竊電中的應用[J].河南電力技術, 2013(2): 61-64.
作者信息:
隋春明,張劍鋒,楊文博,任彥偉
(國網吉林省電力公司,吉林 長春 130000)