基于大数据背景下提高供电公司数据质量对策分析

(整期优先)网络出版时间:2016-12-22
/ 2

基于大数据背景下提高供电公司数据质量对策分析

陈秋平

(国网宿迁供电公司223800)

摘要:随着电网智能化的发展,电力信息系统变得更为复杂,其数据也随之增大,从而引起了各种的数据质量问题,严重阻碍了电力信息系统的使用。文章阐述了电力大数据的特点以及影响数据质量的因素,并在此基础上提出了相应的对策。

关键词:大数据;数据质量;供电公司;电网智能化;电力信息系统

随着信息技术在电网中的应用,电网产生的数据量和类型也急剧增加。面对逐渐复杂的数据资源,数据质量问题也随之增多,比如系统内/外的问题、核对标准的问题等,这些问题严重影响了电力信息系统的应用与推广,比较典型的例子就是电力营销信息管理系统用电客户档案的数据质量问题。电网企业在需要进行停电检修或电网故障导致停电时都会电话或短信通知客户,如果营销系统里记录的用电客户的联系电话缺失或者不准确,电力客服就无法及时准确地通知到客户,从而对用电客户的生产、生活造成不良影响。诸如此类的问题在电力资产管理系统,安全生产管理系统也一样存在。随着电力营销、生产、资产等主业务信息系统都采取了“大集中”模式,数据质量的问题也逐步凸显。为了解决这些数据质量问题,供电系统逐渐引用了大数据技术。所以针对这些大数据和大数据技术,供电公司应引入有效、可行方法,来提高数据质量。

1电力大数据特征

目前,电力大数据指的是大数据的理论、技术以及思想在电力行业中的实践,它提供了从数据的采集一直到最后的展示较为完善的解决方案。

1.1价值密度比较低

一般而言,数据的价值是取决于在大量的数据中挖掘有效的信息。比如,在输变电设备的检测系统中,采集的大部分数据是正常的,仅有少量的不正常,但是这些非正常的数据是对设备状态检测的关键性数据。

1.2具有交互的特点

目前,电网企业正朝以用户为核心的方向进行转变,用户对供电系统服务质量的满意程度将会是很重要的考核指标,所以,供电系统可以根据数据的分析与挖掘,对用户的需求进行了解,来提高更高质量的服务。此外,交互特点还表现在用户在用电的高峰期会向电网进行供电。

1.3处理的速度较快

在对数据进行决策时,对能够实时与在线处理的要求逐渐提高,因此必须提高对数据进行处理的速度,符合决策的要求,在极短的时间内对大量数据进行相关分析。

1.4类型繁多

主要包括非结构化、半结构化和结构化。信息系统的建立加快了半结构化类型数据的增多,比如视频、音频以及图片等。另外,电网企业还要必备能源和气象等外部数据,才能保证供电的可靠性。

1.5体量庞大

已经从TB级升到PB级。信息化的电网的建立使数据可以进行实时的收集与传输,间隔仅为秒级,使数据量呈指数增长。但是对大量数据的应用与存储技术还不完善,数据的价值不能得到良好的挖掘。

2数据质量的影响因素

影响供电行业数据质量的原因非常多,而依据数据产生的节点与时间,能够把这些因素归为以下三类:

2.1数据的导入过程

该过程一般指的是利用集成、接口或手工等方式把数据输入对应仓库的这一程序。这一程序对数据产生的作用主要体现在:(1)人工方式的录入方式,会因为一些没办法预防的原因,而导致结果难以预测;(2)对系统进行重建或升级维护时,经常会对旧系统进行淘汰或者合并,因此整顿数据与原来的数据之间的转换问题较为复杂,面临着严峻的挑战;(3)对原来的数据进行转换时,没有可以依靠的源系统的元数据,为源数据自身并不完备;(4)业务系统前台操作员录入不规范或系统对录入的数据未作校验,导致业务单据流程归档后,保存到后台数据库的原始数据就存在数据质量问题。

2.2导致数据变坏的过程

会导致数据产生损坏的原因有很多:(1)不能对变化地对数据进行捕获,各个系统间通常具有很多的接口,在对接口进行修改时,通常不会把对它产生影响的统一修改;(2)在专业知识或者人员流失后,新来人员对数据的意义进行准确的分析比较困难;(3)数据的处理过程是一个自动化的操作,可能会发生某些验证界面很难涵盖数据的所有特点,也可能是因为性能上的原因将其屏蔽了,所以一旦出现错误,在将大量的数据反馈给客户的时候,将会被责怪,用户对数据质量的感知度也会降低。

2.3系统内部过程

系统自身在对数据进行整理分析的时候也会对其质量产生一定的影响,主要是对数据进行处理、清洗和清除的过程。第一,在对数据进行处理过程中,一旦处理程序发生变化,就会导致质量问题的出现,而新产生的对数据进行采集的程序同样会导致类似的现象,此外,如果在不对的时间发生突发事件,打破数据应有的状态,那么正确的程序也会导致不正确结果的出现,而该问题较为隐蔽,不易被查出;第二,对数据进行清洗的过程,导致危险发生的原因一般在于数据质量本身的内部相关性与复杂性。在解决了某一问题后,也许会导致很多类似或者其他有关数据的问题的出现。数据清洗的自动化是由计算机程序操控的,而程序本身存在bug,对大量数据的记录产生一定的影响,数据质量的说明书不能体现实际数据的需要,因此清洗的结果也许会与理论上的模型相符合,但对实际使用而言依旧是不对的;第三,对数据进行清除的过程,该过程可能会不小心对其他有关数据也进行了清除。

3提高数据质量的对策

3.1建立完善的数据质量保障体系

建立一个可行、有效、系统的数据质量的保障体系,应该使其具备这六大特点:(1)能够对数据质量进行较为全面的管理;(2)可以控制数据质量的所有程序;(3)活动要取得授权后才能进行;(4)建立规范的数据质量的可操作文档,保证数据质量全过程能够被检查;(5)必须对其进行不断改进:数据质量问题的出现是不可避免的,但及时对其纠正、预防再犯才是关键的环节;(6)要尤其关注对出现数据质量问题的数据进行收集,并建立完善的数据质量知识库。

3.2对数据质量进行检查

该过程指的是对数据仓库中的数据质量是否具有问题进行检查,如果有问题,还要鉴定该问题级别。其目的是认识错误,并评估对它的影响程度。主要包括以下项目:

3.2.1检查接口数据。提供接口数据时,其形式有文件和数据表两种类型,所以主要针对这两种类型进行检查。检查接口数据的及时性和完整性,找出问题所在,确保数据在入库前没有显著的数据质量上的潜在问题。尤其是对于电子化移交的相关数据推送接口,一定要对数据推送的接口规范做严格的审查,加强对推送数据正确性、一致性、及时性、完整性的校验。其中对接口文件的检查主要是对格式、大小、传送量、记录长度等进行检查;对接口表的检查主要是对其属性和时间等进行检查;对于其他方式的接口,依据接口的具体情况进行。

3.2.2检查数据仓库。该过程一般指的是对数据仓库中数据的正确性、一致性、及时性、完整性进行检查,来确保仓库内数据质量的良好。鉴于电网信息系统的复杂性及海量数据,数据质量的提高是一项长期的周期性工作,需要定期对数据仓库中的数据进行检查,并不断完善数据检查脚本。

3.2.3检查指定指标。该项检查主要是对数据的正确性进行质量方面的检查;确保数据可以根据业务的实际状况进行体现。因此制定相关数据质量考核指标,提高数据质量,对于电力公司业务开展及服务质量的提升具有积极作用。

4结语

在大数据技术飞速发展的当今时代,电力系统的发展也将更加智能化,朝着高效、可靠的方向变化。目前针对这种大数据进行分析与处理必须具备一套与之配套的质量管理体制。因此为提高数据质量的水平,应该积极开展数据质量管理的研究方法,以便更好地促进电力的发展。

作者简介:

陈秋平(1979),女,电力工程师,江苏省电力公司优秀技术专家后备人才,工作14年来一直从事电力信息通信专业系统设计、实施、完善、评价及运维支撑工作,现工作单位是江苏省电力公司宿迁供电公司信息通信分公司。