基于Hadoop和Flink的电力供应链数据中台构建分析

(整期优先)网络出版时间:2022-12-19
/ 2

基于Hadoop和Flink的电力供应链数据中台构建分析

刘欣然,张雄宝,舒民豪,阮诗迪,陈权崎

广西电网电力调度控制中心,广西 南宁 530023

摘要:本文针对部分电力供应链系统的数据流通问题展开研究,并对不同环节的数据交换问题、高价值数据资产管理难度较高等问题进行集中论述。基础此,可设计出一种新的电力供应链数据中台。在本次中台设计中,集合多种分布式存储功能、分布式计算功能、海量数据搜索功能,并成功打造专门的数据集成与分析模块、数据资产管理模块、数据服务模块、数据质量管理模块、规范设计模块,共计五项主要功能模块[1]。本次设计可提供必要的交互式数据分析与可视化、多源数据互通、机器学习与数据萃取等服务,能够进行多维度的数据资产管理、数据分析和数据质量监控服务。基于此,本系统在物资价格与购买行为分析方面、客商信息图谱等公司各业务的实际应用方面具有一定优势,具备较为良好的实用价值以及推广价值。

关键词:数据分析;电力供应链;数据服务

前言:新时期背景下,电力企业在进行新平台设计、新业务服务、新市场拓展过程中,原电力供应系统已经无法直接使用,并且在技术快速迭代的背景下,传统技术无法对自身积累的高价值数据进行互通处理,这种情况会形成数据孤岛。由于分散状态的数据无法有效应对前端业务变化发展的需求,无法为企业发展提供经营决策支持,所以,需将数据中台的新老模式进行有效融合,打破孤岛数据,才能够形成更为高效的数据服务能力,最终将数据价值变现。

一、基于Hadoop和Flink的电力供应链数据中台设计

(一)电力供应链数据中台系统功能设计与技术选型

在本文设计的数据中台系统中,可以针对固定企业实时数字化运营过程中产生的全部数据进行收集、处理和分析,提供一种全新的一站式智能数据管理服务功能,主要包括:数据集成功能、数据处理功能、规范设计功能、数据质量监控功能、数据资产管理功能、数据服务功能等。本次设计的服务系统,还可以同时提供多维度数据分析并提供相应的预测结果,此时使用者能够更加快速的构建专门的数据分析模型,并对用户的所有数据消费行为形成数据并传递至对应的端智能数据系统中,可供管理者进行直接查阅,并为企业未来发展决策的制定提供助力作用。系统功能架构详情如图1内容所示:

图1电力供应链数据中台功能架构图

在上图内容中,数据基础支撑功能模块可以提供数据中台所需的各项公共基础服务内容,因此可将此模块视为其他模块保持正常运转状态的支撑系统。因此本次系统设计选用DolphinScheduler组件,借此实现不同模块间任务控制的效果,在执行统一调度时的指令和完成资源监控工作的质量也能够得到有效保障作用。按照DataHub中的不同管理单元数据要求,可以形成新的数据仓库,并且此时的元数据还可以再次构成形式统一的新型元数据中心,此时可以选择角色加权限策略的设定方式,保证权限管理的灵活性和统一性[2]。在本次系统设计中,需将HDFS文件系统与ClickHouse作为基础,并由此建立其专门的统一类型分布式系统存储服务平台,可借助Presto组件与Kudu进行配合使用,最终构成统一模式的快速检索服务功能模块,在保证数据传输质量的同时,大幅度提高中心控制平台的作业效率。

二、基于HadoopFlink的电力供应链数据中台建设

(一)电力供应链数据中台软硬件实现

本文设计的电力供应链数据中台,属于自主研发完成的中心控制平台,在设计过程中,成功服务于电力企业的供应链管理系统, 并且对各不同业务系统的统一调度和指挥均可达到理想水平。基于此,不本系统软硬件方面可提供自行水平扩展扩容支持,按照常规数据中台设定的技术架构模型,本系统对电力公司中的实际应用数据进行收集和整理,企业经营数据以及中台软件提供的数据内容在具体工作过程中的实际情况如表1内容所示:

表1 电力供应链数据中台软件部署情况表

部署软件

节点数

用途

hadoop 2. 10.0

5

大数据基础软件

hive 2.3.6

5

数据仓库基础软件

kudu 1.15.0

5

实时数据分析数据库

flink 1.14.2

5

数据计算框架.

clickhouse

3

数据查询检索数据库

presto 0.268

5

实时数据查询中间件

datax 3.0

3

数据批量集成软件

debezium 1.8

3

实时数据同步中间件

dolphins cheduler

3

任务调度和资源监控

1.3.9

3

软件

elasticsearch 7.16.0

3

搜索引擎软件

django 3.2.12

3

python数据分析框架

zookeeper 3.6.3

3

资源协调软件

redis 6.2.3

3

消息中间件

kafka 3.0.0 .

3

消息中间件

nginx 1.21.4

3

代理软件

nacos 1.4.0

2

服务注册软件

在上述内容中,如:Hadoop、Flink等主要功能软件均设定高可用部署方案,中心控制系统服务层则需要由Java完成,以SpringCloud架构为基础开发出的专有应用平台,可借助Hystrix达成对限流和熔断降级问题的突破,效果良好,并且还可以提供在线灰度信息发布的功能支持

[3]

在本次数据中台系统设计过程中,执行实时数据同步操作流程胡总,会经常会出现源数据本身的DDL操作,此时Hive能够支持DDL完成指令操作任务,以此为前提,需要先完成分桶处理,并且此时的DDL操作最终响应时间普遍较长,这种情况无法有效满足快速查询需求和对关键数据快速分析和处理的实际需求[4]。因此,需要在加入Presto后在执行分析操作,虽然这种设计方式可以有效保证最终的数据查询时效,但是,仅能够支持部分新增以及系统内分区的删除操作,无法完成逐条更新操作指令。在这样的情况下,系统可使用Redis对数据进行更新,并将更新后的数据据存入到对应的Redis中,然后再将易剔除的数据信息进行分区处理,此时的数据被整体备份到系统的临时分区内,此后则可以使用Redis中提供的新数据分析功能与临时分区进行合并分析,最后可将原有分区中的所有数据进行整体删除处理,并将临时分区内的所有数据整体写入到对应的新分区内,便于后续数据的集中处理和数据聚合使用。

结语:

综上所述,基于Hadoop和Flink的电力供应链数据中台属于一种电力供应链技术与大数据技术进行结合使用的新技术平台。基于数据质量管理与规范设计数据安全体系和数据运营体系为基础的平台,可以更加有效的为数据中台提供长期健康安全保障和系统运转的持续型保障。在此之后,可以成功打通此前电力供应链具有的不同环节数据壁垒问题,进一步实现对有价值数据的贯通使用,以此为基础,充分发掘数据本身的潜在价值,在提升自身运营能力的同时,还可以为不同客户提供更为优质的、灵活的功能服务,为电力供应链提供更为可靠的生态环境保障。

参考文献:

[1]张茂君,李俊华,邢海涛,等.基于Hadoop和Flink的电力供应链数据中台建设与应用[J].电力大数据,2022,03(02):125-126.

[2]陆俊,李葵,周明,等.基于Hadoop框架的营配调数据处理模型的设计与实现[J].通信电源技术,2019,07(02):155-156.

[3]邢少波,张龙信,赵玉来,等.基于Hadoop的鼓风机工业数据处理和存储系统[J].湖南工业大学学报,2019,33(06):148-149.

[4]闫彩霞,刘颖,贾岚.数据中台助力企业数字化转型—信息化系统供应链成本控制和销售策略场景分析[J].电脑知识与技术:学术版,2021,05(03):107-108.

刘欣然(1997年8月25日),女,壮族,广西南宁人,硕士(信息工程),工程师,

主要研究方向:调度自动化、电力大数据等。

张雄宝(1990年02月04日),男,汉族,广西玉林人,硕士(计算机系统结构),工程师,

主要研究方向:电力系统及其自动化等

舒民豪(1996年.12月.4日),男,汉族,广西河池人,硕士(计算机技术),工程师,主要研究方向:深度学习,强化学习,计算机视觉等

阮诗迪(1989年12月1日),女,汉族,广西宾阳人,硕士(软件工程),工程师,

主要研究方向:调度自动化。

陈权崎(1986年12月02日),男,汉族,广西北流人,博士(信息与通信工程),高级工程师,主要研究方向为图像识别,自然语言处理等。