基于大数据分析的输变电设备状态数据异常检测方法_严英杰

 
基于大数据分析的输变电设备状态数据异常检测方法_严英杰

52 第35卷 第1期 2015年1月5日 中 国 电 机 工 程 学 报

Proceedings of the CSEE Vol.35 No.1 Jan.5, 2015 ?2015 Chin.Soc.for Elec.Eng.

(2015) 01-0052-08 中图分类号:TM 76 DOI:10.13334/j.0258-8013.pcsee.2015.01.007 文章编号:0258-8013

基于大数据分析的输变电设备状态数据

异常检测方法

严英杰1,盛戈皞1,陈玉峰2,江秀臣1,郭志红2,杜修明2

(1.上海交通大学电气工程系,上海市 闵行区 200240; 2.国网山东省电力公司电力科学研究院,山东省 济南市 250002)

An Method for Anomaly Detection of State Information of Power Equipment

Based on Big Data Analysis

YAN Yingjie1, SHENG Gehao1, CHEN Yufeng2, JIANG Xiuchen1,GUO Zhihong2, DU Xiuming2

(1. Department of Electrical Engineering, Shanghai Jiao Tong University, Minhang District, Shanghai 200240, China; 2. Electric Power Reasearch Institute of Shandong Power Supply Company of State Grid, Jinan 250002, Shandong Province, China) ABSTRACT: To detect the anomaly state of power equipment, the traditional method threshold value determination is unable to ensure the accuracy. This paper proposed a method for anomaly detection of state data of power equipment based on big data analysis from time series analysis and unsupervised learning, thus a new perspective of data association and data evolution was achieved. Mining the potential features through time series model and self-organized maps, the method put the original data series into the transition probability series. To simplify the relationship between the multidimensional state sequences, the unsupervised learning was used to form several clusters. The method proposed the anomaly detection framework which has a rapid detection speed and is applicable for the state data flow. At last, the effectiveness of the method is verified by being combined with running instances and the result shows that the abnormal operating state can be rapidly detected.

KEY WORDS: big data; anomaly detection; time series; neural network; unsupervised clustering

摘要:传统的阈值判定方法难以准确检测输变电设备的状态异常,该文提出一种基于时间序列分析和无监督学习等大数据分析的异常检测方法,从数据演化过程、数据关联的全新角度实现异常检测。通过时间序列模型和自适应神经网络对历史数据潜在的特征进行挖掘,并将数据对时间的动态变化规律用转移概率序列表示。针对多维的监测数据,运用无监

基金项目:国家863高技术基金项目(SS2012AA050803);国家电网公司科技项目(520626140020)。

The National High Technology Research and Development of China 863 Program (SS2012AA050803); State Grid Science and Technology Program (520626140020).

督聚类方法简化各参量之间的相关关系,从而避免参量间相关性难以确定的问题。提出异常检测体系,并使之适用于输变电设备状态监测数据流,实现数据流中异常的快速检出。最后结合运行实例验证了提出方法的有效性,表明本方法能快速检测出设备的异常运行状态。

关键词:大数据;异常检测;时间序列;神经网络;无监督聚类

0 引言

输变电设备在实际运行过程中会受到过负荷、过电压、内部绝缘老化、自然环境等异常事件影响,这些异常运行状态会导致设备缺陷、故障的发 生[1-3],因此对设备状态进行异常检测具有很强的必要性。在设备的实际运维中,大都是基于单一系统的部分设备信息,采用简单阈值判定方法来检测异 常[4-6]。这种传统的阈值判定具有局限性,一方面设备信息利用率和状态评价正确率都偏低,另一方面难以检测出设备的潜伏性故障及故障类别,而且相关规范标准[4-6]中的固定阈值难以结合设备运行工况的差异性。

由于设备状态数据(包括在线监测、带电检测、预防性试验数据等)体量大、类型繁多[7-8]的特点,可以将大数据技术引入到设备异常检测中,充分挖掘状态数据的异常信息。近两年大数据技术在互联网、金融、物流领域的发展迅速,体现出极高的社会价值[9],而在能源电力行业大数据技术正处于起步阶段,国内外文献中在电网和设备异常检测领域的大数据技术有时间序列分析[10]、马尔可夫模


第1期 严英杰等:基于大数据分析的输变电设备状态数据异常检测方法 53

型[11]、遗传规划算法[12]、分类算法[13]等。大数据分析技术通过寻找设备信息间的关联关系,为提供设备异常检测准确性提供了全新的解决方法和思路。

综合国内外的研究文献,总结出输变电设备异常检测的难点在于:

1)状态数据大部分是正常数据,异常数据所占的比例很小,按照规范中设定的阈值难以划定正常数据和异常数据的边界。如文献[14]提出一种面向设备群体的工况数据异常检测方法,通过检测区间分割算法、统计理论检测出设备检测数据的阈值异常,但该文献的不足在于仅能检测出数据的阈值异常,且检测区间长度难以确定;

2)设备状态量之间的相关关系及内涵机理复杂,难以用函数精确描述[15-16]。如文献[15]通过监测导线覆冰厚度来判断导线的异常覆冰情况,其等值覆冰厚度通过导线张力、导线倾角、风速的计算公式求出,但公式中参数根据线路不同而存在差异,覆冰计算结果不准确;

3)输变电设备状态数据(如在线监测数据)采集周期短、数据量大,通常以数据流的形式传输到评估后台,需要快速检出数据流中的异常。文献[17]通过时间序列模型对电网的趋势进行动态检测,能够及时检测出电网频率、电压等的短时漂移,但不足之处在于其无法作用于大量数据流的检测,实时性差。文献[18]对滑动窗口中的负荷数据通过核平滑算法及时间序列建模,检测出负荷数据中的异常值,但该方法的不足在于数据流滑动窗口的大小难以确定,而且对每个窗口中的数据要重新拟合模型,不利于异常地快速检出。

鉴于以上总结,本文提出一种基于大数据分析的设备状态数据的异常快速检测方法。计算出设备单状态量数据基于时间轴的转移概率序列,同时将设备多状态量间的相关关系通过无监督聚类的方法描述,并建立异常快速检测模型。相对于传统的阈值判定方法,本方法既简化了多维参量的复杂相关关系,又能检测出设备运行状态的异常类型及异常发生时间,实现异常的实时检测。

过程中一部分状态量的变化较小,如导线拉力、接地电流等,这些状态量数据都属于平稳序列,可直接用AR(1)拟合;另一部分状态量呈日周期性变化,但变化幅值不大,如油温、环境温度等,去除其日周期性后也可通过AR(1)拟合。因此,对状态数据通过一阶AR模型拟合[19],公式如下:

t?1

xt=αxt?1+et=αtx0+∑αiet?i(α<1) (1)

i=0

式中:xt为在线监测数据的时间序列;et为正态分布序列,et~N(μe,λ2),因此xt服从N(μ,σ2)的正态分布,其中μ和σ满足如下关系:

μ=μe/(1?α) (2) σ2=(α2μ2+λ2+μe2)/(1?α2) (3)

对于每个在线监测状态量,正常状态下都不应超过相应的限值,因此假设对所有的t,xt都属于区

间[a,b],即a≤xt≤b。

对所有a≤xt+k≤b,可以推导出:

a?αkxt≤et+k+αet+k?1+"+αk?1et+1≤b?αkxt (4)

由于et~N(μe,λ2),因此由公式(4)可得仅当α小于一个限值α0时,整个序列可以满足属于区间

[a, b]。

由于输变电设备的绝缘劣化过程或潜伏性故障发展缓慢,因此当设备处于异常状态时,监测到的参量往往未超出导则或规程中的限值,从而难以察觉。根据以上结论可知,对于没有超出状态量限值的在线监测数据,单纯地用AR模型不能够检测出其异常状态。

1.2 自组织神经网络对时间序列的量化

自组织神经网络(self organized maps,SOM)工作原理是通过无监督学习方法,让竞争层各神经元通过竞争与输入模式进行匹配,最后仅有一个神经元成为竞争的胜者,这一获取神经元的输入就代表对输入模式的分类[20]。由于无监督学习的训练样本中不含有期望输出,没有任何先验知识,因此适用于数据量大、不含标签的状态监测数据。

运用SOM能进行无监督分类的特点,将整个序列xt作为SOM的输入节点,序列C={C1,C2,…,CN}作为输出节点,对每一个xt训练其属于节点Cj的公式为

j=i(xt)=argmind(xt,Ci(t)) (5)

i

1 单状态量数据流特征量的提取

1.1 单状态量数据的时间序列自回归模型

时间序列的自回归模型(auto-regressive,AR)适用于很多工业过程,其特点是AR系统记忆性强,在时间t的值依赖于从前时刻的行为,这与设备运行过程中的低动态性相符。输变电设备在正常运行

通过反复循环和修正,确保xt距其所属节点的距离最小,如式(6)所示:


54 中 国 电 机 工 程 学 报 第35卷

?Ci(t+1)=Ci(t)+γ(t)[xt?Ci(t)],i∈Nj(t)?

(6) ?

C(t+1)=C(t),i?N(t)?iij?

P[i(xt)=I]=Φ(a?μ/σ) (12)

当I=N时,式(11)简化为

式中γ(t)为学习速率,取值在0~1之间,随着t的增大而减小。

对于单状态量的时间序列xt,通过SOM训练完成后,xt就转化为线性空间中的离散点时间序列

P[i(xt)=I]=1?Φ(

b?μ

σ

) (13)

2)神经元之间的转移概率。

由于AR过程的平稳性,距离近的神经元间转移概率大,距离远的神经元间转移概率小。二阶概率分布函数可表示为

Ct∈{C1,C2,…,CN}:

Ct=Ci(xt) (7)

这表示对每一个时间点t,Ct表示最接近于xt

的节点,因此Ct就代表了对时间序列xt的量化。 1.3 时间序列变化过程的挖掘

与径向基、反馈型等神经网络不同,SOM神经网络的输出节点间是两两相关的,其相关关系可以通过网络拓扑结构表示。在拓扑结构中,由于SOM训练时的竞争关系,每个神经元节点与邻域内的节点相关性强,与邻域外的节点相关性弱。正是由于

bbs.99jianzhu.com内容:建筑图纸、PDF/word 流程,表格,案例,最新,施工方案、工程书籍、建筑论文、合同表格、标准规范、CAD图纸等内容。


TOP最近更新内容

    江苏省盱眙县都梁中学高中数学第2章平面向
    绿豆蛋花是怎样制作及具有什么样的功效?
  • 上一篇:建筑电气开关型号符号
  • 下一篇:电力系统负荷建模的数据预处理技术_王雁平