基于随机森林算法的配网抢修故障量预测方法

(整期优先)网络出版时间:2016-12-22
/ 2

基于随机森林算法的配网抢修故障量预测方法

程闱吴秋兵

(国网太原供电公司配网抢修指挥中心山西省太原市030000)

摘要:配网抢修是电力系统运行环节中十分重要的一环,精益化的配网抢修管理不仅能提高电力系统的供电服务质量,也能减少电力公司的经济损失。本文提出一种新的配网抢修故障数量预测的方法。首先,基于历史数据,以气温、风力、前一天的故障量、最大最小负荷等作为因变量,对数据做了特征映射等预处理。然后,应用随机森林算法建立配网抢修故障量预测模型,并预测不同区域、不同电网故障及非电网故障、不同电压维度下未来一天故障量。在真实电力数据上进行了对比验证,实验结果表明提出的方法具有较好的预测效率和准确性。

关键词:配网抢修;电力系统;精益化管理;故障量预测;随机森林算法

1前言

随着社会的发展,人们的用电需求也在不断提高,电力的供应服务质量直接影响到人们的生活质量,然而当今的电力系统运行环节中仍存在着许多的不足。如何提供可靠安全的供电的服务,迅速有效地对电网故障进行抢修是电力公司急需解决的一个问题,其中一个行之有效的方法就是配网抢修的精益化管理。

本文基于统计方法和数据挖掘技术,选择应用随机森林算法[6]来建立配网抢修故障量预测模型。随机森林由许多的决策树组成,简单易用,具有较好的抗噪能力,分类错误率低,克服了传统分类模型精度不高、容易过度拟合的问题,预测准确率高。因此,研究基于随机森林算法的配网抢修故障量预测方法对提升配网抢修的精益化管理水平具有一定的参考价值。

2随机森林算法

随机森林是一个由一组决策树分类器{h(X,,K)}组成的组合分类器,其中{θK}是服从独立同分布的随机变量,K表示随机森林中决策树的个数,在给定自变量X的情况下,每个决策树分类器通过投票来决定最优的分类结果。

随机森林的构建过程如图1所示,可以分为几个步骤。首先是利用bootstrap重抽样方法有放回地从原始数据样本中随机抽取n个与原始数据样本容量相同的训练样本;然后利用随机方法从训练样本的M个特征变量中抽取m(m<M)个特征变量,来为训练样本构建决策树分类器,所有决策树分类器就构成了随机森林;最后对所有决策树的预测结果通过投票来得到最终的预测结果。

3.2数据预处理

由于原始数据存在缺失、错漏等问题,因此需要先对原始数据进行预处理,以得到可供算法输入的干净数据。进行的数据预处理主要包括数据填充、特征规范化、特征映射等步骤。

3.2.1数据填充

在实验的原始数据中不可避免地存在着一些异常数据和缺失数据,这些数据若没有处理会影响到实验结果的准确性,因此需要对这些数据进行处理。常用的数据填充方法有均值填充、随机填充、线性回归填充以及EM填充等。

3.2.2特征规范化

原始数据不同特征的值域可能存在较大差异。例如:在数据中,有的特征的值域可能达到1010数量级,而有的可能只有个位数。如果直接在原始数据上分析,数值大的特征将湮没数值小的特征,使数值小的特征无法得到有效利用。因此,需要对原始数据做规范化处理。常见的规范化方法有最小-最大规范化、z-score规范化及小数定标规范化等。

3.2.3特征映射

由于在原始数据中有的特征是以文字的形式来描述的,因此需要转换为类别型数据才能作为算法输入。而有的特征是数值型的数据,在用于分类时也要转换为类别型数据才能作为算法输入。因此我们可以定义一些转换规则来将特征进行映射。常用的特征映射方法有自组织特征映射、拉普拉斯特征映射、等距特征映射以及多域特征映射等。

4实验数据处理

该研究所用到的原始数据为上海各区2012年1月至2015年5月21日的天气情况及负荷数据等。表1是区域负荷测点数据表所包含的字段,表2是七天天气预报数据表所包含的字段。

数据预处理后就可以预测非故障量特征的值,得到非故障量特征的值后就可进行故障量的预测。数据进行的预处理操作如下:

4.1数据填充

在本研究中,对于原始数据中的缺失值,将其填充为0;对于异常值,由于包含异常值的记录很少,直接删除包含异常值的记录。

4.2特征规范化

在本研究中,采用区间规范化的方法,将所有特征值映射到[0,1]区间。如果某个特征的取值全为0,不对该特征规范化,保持原始0值。

4.3特征映射

本研究中所采用的转换规则如下:

4.3.1天气情况的转换规则

在研究的原始数据中,天气分为95种类型。不仅类别过多,且不同类别之间存在大量交叉,如“阴~小雨”、“中雨~小雨”、“小到中雨~阵雨”等都存在重复的天气情况。因此,在保证合理性的基础上,可将天气情况进行如下转换:

首先,将天气分为雪、大雨、中雨、小雨、阴、多云和晴和其它等8类,分别用数值0~7代表;其次,将95种天气归入符合的最坏的天气类型。例如:“阴~小雨”归入小雨类,“中雨~小雨”归入大雨类,等等。这样,划分后的天气情况可以突出坏天气对电网故障的影响。

4.3.2风力转换规则

转换规则与天气情况的转换规则类似,将风力归纳为1-2级、3-4级、5-6级、7-8级和其它等5个等级,分别用数值0~4代表。将原始风力情况归入相匹配的最大风力等级。

5结束语

本文将随机森林算法运用于配网抢修故障量预测中,提出了一种基于随机森林算法的故障量预测方法。该方法先预测了未来一天的天气、负荷等特征的值,然后根据这些特征的值,来预测未来一天的故障量。经过数据集实验表明,该方法能有效预测故障量。

参考文献:

[1]罗知林陈挺蔡皖东.一个基于随机森林的微博转发预测算法[J].计算机科学.2014(04)

[2]张敏智.配电网故障抢修效率提升策略探析[J].电子测试.2013(11)

[3]陈法法.基于等距映射与加权KNN的旋转机械故障诊断[J].仪器仪表学报.2013(01)

[4]蔡金锭.基于小波分析与随机森林算法的电力电子电路故障诊断[J].电力科学与技术学报.2011(02)

[5]袁仲雄.基于模糊评判法的配网抢修模型[J].华东电力.2011(02)