基于图数据库的电力资产画像技术研究

(整期优先)网络出版时间:2020-09-02
/ 2

基于图数据库的电力资产画像技术研究

陈燕丽

 国网山西省电力公司建设分公司  030006

摘要:为了提升电网资产的运营能力,完善资产全寿命周期的精细化管理,需要实现对于电力资产进行全面客观的定性评价及透明高效的监督管理。电力资产画像是达到这一目的的有效手段。提出一种基于图数据库的电力资产画像解决方案,全面阐述了电力资产画像的实现原理、关键问题及解决思路、具体的实现方式、画像成果的应用方式及产生的社会效益及经济效益。

关键字:电力资产;画像技术;图数据库;标签库

0引言

资产管理对于企业来说是一项十分重要的工作。电力企业属于典型的资产密集型企业,其资产具有规模大、跨部门、更新快的特点,资产精细化管理的程度直接影响到企业的安全生产能力、服务社会能力、创造盈利能力和持续发展能力。而实现电力资产精细化管理首先必须实现对于所拥有的电力资产当前状况的客观、全面、准确的认识。电力资产画像是电力企业实现对于电力资产当前状况的客观、全面、准确认识的有效手段。电力资产画像的实现依赖于电力企业运行过程中产生的业务数据。电力企业在日常生产过程中,产生了大量的与电力资产相关的业务数据。这些数据是以编码形式存在的信息载体,是物理世界的碎片化反映。电力企业可以使用这些业务数据,通过特定的分析方法,生成对于电力资产的一个个侧写,从各个方面客观、清晰、定性地描述电力资产。这些侧写汇总在一起,形成电力资产业务对象的全视角的电力资产画像,提供给电力企业使用。使用电力资产画像的计算结果,电力企业可以及时、深入、全面、准确地了解电力资产的现状,发现存在的问题,及时制订并执行相应的措施,防范可能的风险,保障电力资产正常、高效的运行状态,从而保证电力企业整体的安全生产、服务社会、创造盈利的能力。

1 数据画像

数据画像其实就是对现实业务对象做的一个数学模型,在整个数学模型中,其核心是怎么描述业务知识体系,而这个业务知识体系就是本体论。本体是概念模型的明确的规范说明,也可以说是一种形式化的,对于共享概念体系的明确而又详细的说明。目前其在人工智能领域有着广泛的应用,谷歌通过本体建模形成了全网知识图谱,实现了智能搜索。本体论十分复杂。这里通过“标签”这种朴素的电力资产画像的核心概念是信息的标签化,它是在完成研究对象的各个维度的主要信息数据收集后,高度精炼地抽象出的该对象的全貌标签。标签化的目的:一方面是对多维信息进行标签化后,方便计算机的识别和处理;另一方面,标签本身具有准确性和非二义性,利于后期的整理、分析和统计。实现电力资产画像首先需要建立电力资产画像的计算模型(简称为画像模型)。具体方法是,对各个电力业务对象构建其特有的标签库,而后,为标签库中所有的标签设置算法。标签库及标签库中各个标签的配属算法组成了此电力业务对象的画像模型。进行画像计算时,将依据画像模型的标签及其算法进行标签值的计算,作为计算结果的标签值组成了电力业务对象的画像。标签库的算法使用电力业务数据作为输入,计算出各个标签的标签值。分别设计标识类、分类型、连续型、曲线类等数据类型对应的标签化处理方法。对规律不明显、复合型数据采用数据挖掘的方式标签化处理。

2算法选择

(1)直接获取类

这类标签可从数据库中直接获取,不需要进一步加工和运算。这种方法多应用于属性标签,主要描述资产的基本信息。

(2)逻辑运算类

通过简单的逻辑计算即可得到这类标签。例如运行时长、巡视周期等。多应用于行为标签,能体现资产的运行信息。

(3)算法挖掘类

这类标签需要通过大数据的挖掘算法,构建模型而得到,多应用于预测类标签。主要的算法包括以下几种。

  1. 分类分析技术:某种指定的属性特征将标签归类。需要确定类别的概念描述,并找出类判别准则。常用的算法包括 KNN 算法、决策树(CART、 C4.5 等)、SVM 算法、贝叶斯算法、BP 神经网络等。

  2. 聚类分析技术:通过聚类算法将分类不明确的属性进行聚类分析和挖掘,提供标签准确性,涉及的技术包括 K 均值聚类、层次聚类、模糊 C 均值聚类等。

  3. 关联分析:关联分析的目的是找出数据集合中隐藏的关联网,是离散变量因果分析的基础。通过关联分析深度挖掘多个基础标签的关系,得到更高层次的客户标签,涉及的技术包括 Apprioir 算法、FP-Growth 算法等。

  4. 回归分析:通过分析验证标签属性设置的合理性,以及客户画像的准确性,涉及的技术包括多元线性回归、多元非线性回归、逻辑回归等。

  5. 文本挖掘:在资产整个寿命周期中,有些信息是以文本的形式记录,而对于这类非结构化数据的处理,需要采用文本特征化技术,提取其中隐含的标签信息。对于文本特征化提取,可以采用TF、IDF 算法,用来评估一个词对于一个文本集或一个语料库中的其中一份文件的重要程度。

3算法实现

实现过程中需要考虑这些关键问题。 1)聚类标签算法的实现及调用:聚类算法需要使用专用的数据挖掘软件实现,编制好的数据挖掘算法必须可以通过数据挖掘软件开发接口提供给电力资产画像计算进行功能调用。 2)专用逻辑算法的编制及管理:需要能够在线注册、卸载、更换专用的逻辑算法。这样,在进行画像模型建模时,可以编写相应的标签算法,上传并注册和使用。在使用过程中,如果发现某个专用逻辑算法效果不理想,可以编制一个新的算法,在线更换它。根据以上要求,可以使用具有热插拔特性的 OSGI 组件标准来实现专用的逻辑算法。 3)电力资产画像模型的可视化建模:可以对任意一个电力业务对象(例如,变压器、开关、员工等)进行可视化建模,通过可视化的方式为它添加标签,配置标签算法。这就需要编制一个画像模型可视化建模的工具。 4)标签算法的结果值字典:标签定性地描述电力业务对象某一维度特征。因此,需要把标签算法的数值类型计算结果转换为一个定性的字典值。例如,设备健康情况标签的计算结果是,健康指数为80。80不能定性地表达设备健康情况到底是好是坏,因此,需要一个字典将此数值翻译成定性的标识。设备健康情况专用字典中,健康指数 80~100表示设备健康情况是“优秀”。因此,经过字典转换,设备健康情况标签的标签值是“优秀”。5)电力资产画像模型的解释及执行:系统要能够依据电力业务对象的画像模型中的标签及标签配属的算法进行画像计算,生成并保存计算结果。6)画像成果的保存:使用了图数据库技术作为智能电网电力资产画像模型、电力资产画像结果的数据存储技术。因为,图数据库比关系数据库更有利于保存数据之间的关系,进行复杂的数据关系的查询时速度比关系数据库快几千倍。电力资产画像中,需要保存大量的数据关系。例如,业务对象与标签的关系、标签与算法的关系、算法与字典的关系、标签值与所有算法的关系,等等。还需要进行大量的关系查询,例如,设备健康情况标签值是“优秀”的设备有哪些。 7)画像结果影响因素指标:用户可能需要了解标签计算结果是如何计算出来的。有2种方式可以用来描述计算结果的计算过程。一种是标签计算过程中记录详细的计算流水,而后在查询时向用户展示;另一种是制订标签值的影响因素指标,使用指标粗略地描述标签值可能的影响因素。在实际应用中,选择第二种方式。原因是,数据挖掘软件一般无法记录和输出详细的计算流水;标签计算算法过于专业和复杂,用户很难看懂详细的计算过程。

4资产画像数据库简介

为了记录资产画像标签值与资产画像模型之间的关联关系,便于进行关系查询,采用了最新的图数据库作为资产画像模型以及资产画像计算结果的数据存储技术。在这里,对于图数据库做一个简要介绍。图数据库以图结构作为数据模型,具有网状数据的存储与检索能力。相比于关系数据库,图数据的优势在于能够进行复杂连接关系的查询。在一个图中包含 2 种基本的数据类型:Nodes(节点)和Relationships(关系)。Nodes和Relation-ships都可以包含key/value形式的属性。Nodes通过Relationships所定义的关系相连起来,形成关系型网络结构。

5总结

综上所述,通过实施电力资产画像,电力企业可以对于电力资产的状态进行全方位地了解,进而根据各个电力资产的状况,采取合理的精细化管理措施,保障电力资产运行安全、可靠、稳定,进而达到不断改进电网运行绩效,持续提升电网安全经济优质输电和供电服务水平的目的。

2