分布式技术在电力大数据高性能处理中的应用

(整期优先)网络出版时间:2016-12-22
/ 2

分布式技术在电力大数据高性能处理中的应用

牛明珠吴江宁

(国网辽宁省电力有限公司大连供电公司)

摘要:主要研究分布式技术在电力大数据高性能处理中的应用,分析了电力大数据的内涵和发展趋势,并对分布式技术在电力大数据高性能处理中的应用策略进行了讨论。

关键词:分布式技术;电力大数据;高性能处理

信息化技术快速发展,在电力系统中也得到了大规模应用,尤其是在电力大数据的处理方面,应用分布式技术能够极大地提高电力系统数据处理运算能力,提高数据挖掘的速度和有效性,为电力系统运行管理、故障处理等方面提供更加有价值的信息。

一、电力大数据

关于大数据的研究起步较晚但是发展迅速,现阶段,业内并没有关于大数据的统一定义。IDC信息基础设施建设推进研讨会上,指出大数据有数据规模大、数据类型复杂、处理速度快和价值密度低等基本特征,这已经成为了业内的共识。根据麦肯锡全球研究院关于大数据的研究报告《大数据:下一个创新、竞争和生产力的前沿》报告中对大数据的描述,大数据是指在一定时间内无法使用传统数据库软件工具抓取内容,进行管理与处理的数据集合。

近些年电力系统快速发展,自动化、智能化和信息化程度不断提高,从上世纪60年代开始推动电力自动化改革,80年代开始推行电力运行管理信息化,近些年开始尝试基于智能化电力设备的智能电网建设,而基于物联网和云计算的新一代IT技术在电力系统中的应用,将导致电力系统运行数据规模进一步增大,电力数据资源急剧增长,并表现出异构、多源和PB级规模的变化趋势。电力大数据是电力系统未来的发展方向和必然的发展阶段,是电力工业技术革新的必然过程,电力大数据并不只是单纯的引入新技术,而是运营管理理念、管理体制以及技术组成的突破性变革,是一次价值形态的飞跃。

二、分布式技术在电力大数据高性能处理中的应用

(一)分布式文件系统

电力系统规模巨大线路绵延,电力系统运行数据规模大,更替快,数据来源驳杂,空间分布遥远,传统的文件管理系统难以满足电力大数据的需求,建设大规模数据可拓展分布式文件存储系统,是电力大数据技术应用的基础。Key-Value分布式文件系统是一种通用硬件上运行的文件管理系统,容错性和可用性较高,提供的数据访问吞吐量更高,能够满足大规模数据高性能处理的需求。分布式文件系统有单独master和多个slave结构,其中master保存元数据,slave保存数据block块形式数据信息。这样的数据结构能够部署到几千台计算机规模的集群,可拓展性强,而文件系统单点故障时,能够通过文件副本的形式快速恢复。这种分布式文件管理系统单点使用简单一致模型,系统复杂性更低,而并发吞吐量更大。

分布式文件集群有多个数据节点和一个主控节点,其中主控制节点负责命名文件空间,处理文件访问请求,一个数据集群中一般只有一个主控节点,用于集群内多个节点的数据存储,将文件分割为多个块,存储在数据节点上,利用这种分布式文件管理系统,数据读写更加可靠,文件管理和访问性能更好。

(二)并行计算

并行计算中应用比较广泛的是Google提出的MapReduce软件架构与计算模型,能够进行超过1TB大规模数据集的并行计算,分布式计算平台充分学习了这种并行计算架构,利用MapReduce提供的简单软件架构,将计算任务分解分发到成千台计算机集群中,高容错并行处理大量数据,并行多任务处理,SQL和MapReduce之间的转换更加容易,复杂的SQL问题通过解析优化,分解为并行处理任务群,同时调度优化任务处理过程,不同业务数据不同任务并行处理,充分利用系统资源,加快运算效率。MapReduce能够完成大量计算机组成的大规模计算集群的并行任务运行和管理,单个Map任务、Reduce任务都同时在一个单独计算节点上完成运算,运算效率非常高,计算节点自身也是存储节点,数据的本地计算同样也减少了数据传输量,突破了网络带宽限制。

(三)多维索引

多维数据的查询要在建立大规模数据集多维索引基础上实现,查询多维数据有Filter和Refinement两个阶段,首先选择候选集,初过滤之后再详细查找生成最终结果集。多维数据索引充分利用了分布式平台的结构优势,能够同时进行多列索引,利用多种二维索引,利用服务器端计算技术,显著提高了复杂索引的运算效率。

(四)分布式光纤电力电缆检测数据质量优化

分布式光纤传感技术利用光在光纤中传输特性获取温度、振动等参数,在光缆线路检测、维护和施工中都有着广泛的应用,具有精确测量光纤温度、长度,故障定位等多种功能。经过脉冲发生器调制后的激光发射光脉冲,耦合处理之后向光纤发射后向散射光和菲涅尔反射光,光电探测器转换光信号为电信号,并传输给分布式计算机阵列进行处理。不同时间测量反射光强度对应不同位置传感光纤散射,测量后向散射时间函数就能够获得后向散射信息,从而准确获得光纤连接点、耦合点以及断点位置。

分布式光纤传感技术能够获得精确的电缆振动、温度信息,而长期使用过程中,受到外部环境、人为干扰的影响,测量数据失真,因此需要采用分布式智能采样方法修复数据,减少系统缺陷发生率。系统的软件平台能够检测修正分布式传感器的测量数据,并通过分析判断电缆运行状态,分析故障状态、原因和风险级别,指导检修计划的制定和落实。

为了进一步提高分布式光纤检测数据采样质量,要科学选择数据采集算法。电力系统分布式光纤节点分布广泛、距离远,可能出现部署不平衡、感知数据关联性强等问题,产生较大系统损耗和噪声。为此可以使用Kalman-Filter提出的时序采样算法,根据节点数据变化频率调节采样速率,从而在保证采样质量的同时降低能耗。

(五)分布式局放在线监测技术

传统电力系统局放监测采用单点带电检测方法进行在线监测,检测精度不高,而且无法根据监测数据判断故障点位置。而现场检测需要首先在现场布置局放测量仪器,之后进行逐点测量,再后台分析处理数据,方可判断故障点位置。这样的局放监测方式效率低下,精度不高,长距离高压线路电缆局放监测工作量很大。而分布式在线监测技术在电缆线路上设置多个测试点,每个测试点都同步精确采样,并将测试数据上传分布式计算机管理系统异地存储,高性能实时分析,通过不同测试点上数据之间的衰减程度识别定位故障点。远程服务器上的局放数据还能够用于数据挖掘,获取更高价值的局放数据信息数据,为局放监测和管理工作提供数据参考。

结语:

分布式并行计算平台能够有效解决电力大数据在存储、计算以及网络传输方面面临的瓶颈,在进一步提高电力系统运行管理水平方面有着广阔的应用空间。

参考文献:

[1]衡星辰,周力.分布式技术在电力大数据高性能处理中的应用[J].电力信息与通信技术,2013(09).

[2]彭小圣,邓迪元,程时杰,文劲宇,李朝晖,牛林.面向智能电网应用的电力大数据关键技术[J].中国电机工程学报,2015(03).

[3]张沛,吴潇雨,和敬涵.大数据技术在主动配电网中的应用综述[J].电力建设,2015(01).

[4]岳阳,张晓佳,高一丹.基于Hadoop的电力大数据技术体系研究[J].电力与能源,2015(01).

[5]邓贤添.基于分布式技术的电力大数据高性能处理中的应用研究[J].中国新技术新产品,2015(24).

[6]田芳,黄彦浩,史东宇,夏天,裘微江,胡晓波,李亚楼,汤涌,周孝信.电力系统仿真分析技术的发展趋势[J].中国电机工程学报,2014(13).