分布式实时多数据流常用处理架构关键技术的研究与实现

(整期优先)网络出版时间:2018-12-22
/ 2

分布式实时多数据流常用处理架构关键技术的研究与实现

叶敏

(南瑞集团公司江苏省南京市210000)

摘要:现如今,很多企业构建了大数据平台框架,及时搜集数据、分配数据和保存数据,在这过程中积攒了很多经验。但是,在研究和分析电力大数据计算时,不能及时完善电力大数据的特征,没哟进一步研究海量实时数据流处理能力,还不能完全满足各业务部门对电力大数据分析挖掘和实时决策的需求。对此针对电力大数据实时处理及智能分析技术进行研究,以此补救大数据框架中的薄弱环节,研发海量实时高速大数据流的处理和智能分析技术,提升大数据平台能力,并在平台之上建立更多高业务价值的实时智能决策分析型应用。

关键词:分布式实时多数据流;处理架构;关键基础

1.分布式多数据流即时处理架构及关键技术研究

1.1国内外主流分布式多数据流处理技术产品研究

选取国内外应用较广的分布式处理、流计算技术产品,如Storm、SparkStreaming、IBMStreams、S4等,对其技术特点进行挖掘,包括稳定性、处理延迟、动态部署、功能扩展、数据集成、可操作性、是否丢包等,建立原型并进行技术预研,通过仿真数据环境研究其性能表现,比较不同分布式流计算产品的异同与特点,同时了解流计算技术的具体实现机制和关键技术点,为后续开展域分布式多数据流实时处理流计算框架设计和面向高速数据流处理的分布式服务体系设计提供充分的依据和参考。

1.2广域分布式多数据流实时处理流计算框架设计

基于开源Storm产品研究如何构建一个基础的流式计算的框架和模型,提供输入、运算符和输出整套处理框架和流程;以及灵活的并发计算基础设施,提供线性节点扩展能力,结合输入流流量灵敏性来判断其控制能力;能够架构在低廉的PC服务器上,构成流处理集群,平衡分析处理能力及成本;使得海量流数据处理可以在规定的时间内完成。研究如何设计实现一个高度可扩展和灵活的架构来处理各种各样的结构化和非结构化数据。

1.3分布式数据流计算框架的电力行业典型应用设计

流计算网络安全风险预警应用设计主要包括几下两点:首先,对安全数据流处理模型进行深入探讨,如非结构化数据、路由器、安全设备和安全系统结构,进一步探讨关于流式处理技术中的数据采集、数据传送和存储模型等。其次,分析安全数据检索和开采模型,索引模型基于分布式存储架构,实现智能化检索;构建安全监控场景模型与安全态势分析模型,借助大数据开挖和相连分析技术,找到安全事件,对安全运行趋势进行研究。

1.4分布式数据流计算框架的系统设计与验证

针对广域分布式多数据流实时处理流计算框架、高速数据流处理分布式服务体系、典型应用设计成果,设计并验证分布式数据流计算框架的系统,系统分为两部分:构建分布式数据流计算平台、在平台上应用网络安全风险分析和预警使用。

2.广域分布式多数据流实时处理流计算框架

2.1电网多数据流实时处理流计算框架

在电网调度自动化系统中,包含大量实时处理工作,增加了实时数据库的工作量,所以,实时数据库系统需要重点掌握互联大电网数据广域分布、数据量大、实时共享的特性,选择广域、分布的方法对实时数据进行保存和处理。根据现状来看,实时数据库系统依旧在单一调度自动化系统范围内运行,其数据分布式存储能力和访问能力不足,不能有效获得广域范围内数据信息,对互联大电网多级调度系统的信息交换和共享进行了束缚。

面对海量的实时的广域分布的电力数据流量,以往的计算机模型已不再适用。怎样解决大量非结构化实时数据变成中心,使得实时数据分布式流计算框架能够快速发展。因此,就要研究可以符合互联大电网调度要求的广域分布式实时处理流计算框架,完成数据保存、交互和共享等任务,解决了一系列问题,进一步提升调度驾驭特大电网的能力,确保电网的安全性。

2.2分布式数据流计算框架服务体系

流计算服务体系的作用是防止分布式多数据流处理的技术细节流露出来,在封装过程中,可以利用高性能数据流计算能力、融合多类数据来源的关联分析能力和高时效性数据流在线分析能力等,按照应用要求和用户行为来提供流计算服务,创建面向不同类型用户的高层次概念模型。

数据流处理服务体系是建立在数据挖掘过程的基础上,提供对项目提出的数据流高速计算、多数据流协同分析、流计算资源的综合监管的基础算法进行封装,最终以服务的形式提供给包括运维监管人员、数据分析人员、业务人员在内的不同角色。

运维管理人员监控服务:按照系统配件,定期地将计算任务过程中的数据处理量和进度信息上报给本级资源管理器,由分级资源管理器将这些监控状态信息反馈给中心资源管理平台,这样用户就能查看各层次的流计算服务情况。详细过程是向监控管理平台发送请求任务,详细分析各个任务过程,分解出子任务及其运行状态,绘制成图形展示在可视化页面上。

数据分析师的分析服务:主要提供的服务有数据流分析算法、模型流程发布、模型构建与评估、模型流程管理。分析算法是面向单数据流的在线随机优化算法体系,及多数据流的协同分析算法;模型构建指的是通过培训从而获取数据挖掘模型,模型评估有助于用户更精准、更详细的分析数据挖掘模型,用户在不同的环节利用模型评估来获得挖掘知识的满意度,进而完善数据,直到得出对用户有价值知识成果;模型流程发布是包裹数据挖掘模型过程,提供给上层应用系统用或支撑外部系统的数据挖掘分析。模型流程管理在平台发布中应用广泛,并且数据挖掘模型流程服务主要有版本管理和停用预测。

业务人员应用服务:结合业务应用特点把数据流处理问题分为几大类:异常检测、在线转换清洗、时间窗口统计和在线模型训练。针对不同处理类型提供可供调用的服务接口,把数据处理要求发放到分析、计算和资源监控环节中,便于用户更好的布置。

2.3运用蒙特卡洛模拟的数据流调度优化模型研究

全球通信与互联网领域发展迅速,广泛应用在物联网技术中,产生大批量的数据流,相对于不稳定数据流而言,要求在线、精准的完成计算与归类工作,最终找到可用数据。基于云计算分布式流计算系统内部,涉及到的数据类型有静态、结构化、离线,还有非结构化数据。为了符合复杂计算的处理要求,在分布式流计算系统中,把要用数据分成几个小数据流进行处理,最终整理出计算结果。相对于输入同组数据流而言,选择的调度方式不同,影响计算效率。

静态数据是传统分布式处理模式中最常见的一种数据,并行数据流用有向无环图表示,并在多处理机上完成调度工作,且调度工作时间可以预测。因为分布式流计算系统所涉及的数据是运动型的,且大小不明确,由于存在一定的不确定性,导致以往的静态数据流调度方式已经落后。

借助随机数,反复多次的进行随机取样试验从而获取真实数据,这种方式是蒙特卡洛模拟MCS方法的核心思想,是处理统计推断中模型拟合与优化问题的唯一办法。根据上述内容提到的蒙特卡洛模拟法,常采用反复的随机抽样来获得大量的随机样本,并通过计算所获得样本的结果来预测最优的预调度方案。

结语

大数据环境下的数据流处理其实时性非常高,分布式数据流处理系统可以处理大数据环境下的数据流问题,具有分布式系统的扩展性和容错性特点,从而为人类提供高效率、高质量的服务。

参考文献:

[1]陈付梅,韩德志,毕坤等.大数据环境下的分布式数据流处理关键技术探析[J].计算机应用,2017,(3):620-627.

[2]吴静,徐花芬,毛国君.分布式数据流分类关键技术研究[J].华北科技学院学报,2015,(4):119-124.

[3]赵一方.大数据管理概念、技术与挑战[J].消费导刊,2017,(19):45-48.