基于知识图谱的电力物资知识网络构建与关键技术研究

(整期优先)网络出版时间:2022-03-21
/ 2

基于知识图谱的电力物资知识网络构建与关键技术研究

杨洁,田行健,冯力,王漠,吕飞

贵州电网物资有限公司,贵州 贵阳 550000

摘要:本文针对电力物资信息记录不准确、不完善、关系模糊、混乱等问题,在网络科学的理论和方法指导下,构建了一套具有系统性、整体性和协同性的电力物资知识网络,满足多元应用需求,实现了信息共享和智能化,对电力物资知识的管理和应用具有重大意义。

关键词:电力物资,知识网络,知识图谱

一、引言

目前,电力物资知识应用智能化发展是必然的,这能满足未来电力物资知识应用过程中的智能问答、搜索、推荐等需求,在提升管理与决策水平方面具有重要意义。

因电力物资信息记录不准确、不完善且物资间的关系模糊、混乱等,导致信息出现欠缺、错误等情况及信息应用难度大,管理成本攀升,极大制约了电力物资知识的应用发展。网络科学的应用与研究为电力物资知识网络的构建提供方法支撑,使知识网络构建成为可能。


  1. 研究内容

(一)电力物资知识图谱构建研究

知识图谱即建立完整的知识关系图,包括所有种类的信息,以满足相关企业对日常工作中的信息应用。


1 数据采集与处理

1)数据采集:①电力部门提供;②建立数据采集模板,供应商自主填报上传,获取供应商产品和服务信息数据;③利用网络爬虫采集外部网络的公共数据信息资源并标注来源。

2)为保证数据质量和格式等符合研究需求,根据数据种类对采集数据进行处理,具体:

①NLP(自然语言处理)

文本数据内含很多不同类型的噪点,所以一般情况下无法直接分析,NLP处理包括:

ⅰ噪声移除

准备噪音实体的字典,对text object进行迭代,去除存在于噪音字典里的tokens,将一个单词的所有形式转为规范形式。

ⅱ词汇规范化

将高维空间(N个不同特征)转换至低维空间(1个特征);包括:词干提取和词元化。

ⅲ对象标准化

使用正则表达式和数据字典来修正噪音。

ⅳ文本分类

通过匹配文本对象找相似体,自动修正拼写、删除重复数据及分析基因组等,组成为训练和预测。

②数据蒸馏

提炼同类型数据,减少数据在模型训练中的计算过程,高效快捷地获取整个数据集的知识。

③NER(命名实体识别)

识别文本中具有特定意义的实体,如人名、地名、机构名、专有名词等;包括实体边界识别和确定实体类别。

2 知识抽取

知识抽取是对不同来源、不同结构的数据进行提取,形成知识并储存到知识图谱中;针对实体、关系、属性抽取。

NLP不是一个完全随机过程,须借助规则知识提前进行过滤修剪,目前暂无单纯使用统计模型而不使用规则知识的NER系统,使用混合方法包括:

ⅰ统计学习方法间或内部层叠融合;

ⅱ规则、词典和机器学习方法间的融合;在基于统计的方法中引入部分规则,将机器学习和人工知识结合。

ⅲ各类模型与算法结合;将上级模型的结果作为下级的训练数据,并用这些训练数据对模型进行训练,得到下级模型。

ⅳ神经网络是处理许多NLP任务的模型。常用模型有NN/CNN-CRF、RNN-CRF、LSTM-CRF。

3 知识融合

1)实体连接在整体层面的分类技术有基于概率生成模型、主题模型、基于图、深度神经网络等方法;

实体消岐采用聚类法消歧,包括空间向量模型、语义模型、社会网络模型、知识模型。

实体对齐能消除异质数据中实体冲突、指向不明等不一致性问题,从顶层创建一个大规模的统一知识库,帮助机器理解多源异质数据,形成高质量知识库。算法有成对实体对齐和集体实体对齐;成对实体有基于传统概率模型和机器学习的对齐方法;集体实体分为局部和全局;局部集体为实体本身及与其有关的实体的属性分别设置不同权重,通过加权求和计算总体相似度,使用向量空间模型和余弦相似性来判别大规模知识库中的实体相似程度,算法为每个实体建立了名称向量(用于标识实体属性)与虚拟文档向量(用于表示实体的属性值及其邻居节点的属性值的加权和值);全局集体有基于相似性传播和概率两种模型。

2)知识合并

采用资源描述框架(RDF)将关系数据库转为数据模型,合并到本地知识库,包括数据层和模式层融合。

3)知识加工

①本体构建

采用人工编辑或计算机,利用数据驱动自动构建树状本体,相邻层次的节点(概念)间具有严格的“IsA”关系的结构,再用算法评估和人工审核的结合方式修正和确认。或采用跨语言知识链接的方法构建本体库。

②知识推理

从知识库中已有的实体关系数据出发,经计算机推理,建立实体间的新关联,拓展和丰富知识网络;分为基于逻辑的推理(一阶谓词、描述、规则逻辑推理),基于图的推理(基于神经网络模型和Path Ranking算法)及新发展趋势垮知识库的知识推理;

③质量评估

与实体对齐任务一起进行的,对知识的可信度进行量化,保留较高置信度,舍弃较低置信度,保证知识的质量。

4)知识更新

通过不断迭代更新,使知识图谱内容与时俱进,包括概念层和数据层更新,采用全面更新或增量更新。

4 知识表示

语义相似度计算、链接预测(又被称为知识图谱补全)等代表模型如下:

①距离模型

利用关系矩阵将实体投影到同纬度的向量空间中,计算投影向量间的距离,判断实体间存在的关系的置信度。

②单层神经网络

针对距离模型的缺陷,提出采用单层神经网络的非线性模型(single layer model,SLM)。

③双线性模型

又叫隐变量模型(latent factor model,LFM)。基于实体间关系的双线性变换来刻画实体在关系下的语义相关性。

④神经张量模型

在不同维度下将实体联系起来,表示实体间复杂的语义联系。

⑤矩阵分解模型

通过矩阵分解,得低维向量表示,典型代表是RESACL模型。

⑥翻译模型

创建的TransE模型,将知识库中实体间的关系看成用向量表示的实体间的某种平移。

⑦复杂关系模型

知识库中的实体关系类型分为:1-to-1、1-to-N、N-to-1、N-to-N 。代表性模型有:TransH模型、TransR模型、TransD模型、TransG模型、KG2E模型。

(二)基于知识图谱的知识网络建设

梳理培训过程中的应用方式、需求、场景及公共查询需求,结合数据知识库,包括价格变化趋势、相关行业经济形势、生产厂家、使用教学视频等数据,构建知识网络,结合电力物资细分标准,形成查询目录框架,根据应用需求对知识图谱中物资信息进行删减和补充及使用关联规则研究物资百科内容间的联系,采用可视化、图挖掘等进行展示,满足查询需求及公共应用内容展示需求。

1 图挖掘

利用图模型从海量数据中发现和提取有用知识和信息。包括:图的匹配;关键字查询;频繁子图挖掘:①Apriori-based 方法:AGM,AcGM,FSG和path-join算法等;②FP-growth方法:gSpan、CloseGraph和FFSM等;显著性子图挖掘;密集子图挖掘;图的聚类、分类;不确定图的挖掘;网络应用的连接分析:基于连接的对象分类,对象类型和连接类型预测,预测链路扩展,组探测,元数据挖掘。

(三)知识网络原型系统构建

依托知识框架与数据库模型,整合知识图谱、知识库,开发原型系统,包括百科知识查询应用模块、数据来源查询模块及根据不同应用人群或场景设置的专用模块。

三、结论

本文在网络科学的理论和方法指导下,构建了一套具有系统性、整体性和协同性的电力物资知识网络,满足了多元应用需求,实现了信息共享和智能化,对电力物资知识的管理和应用具有重大意义。

参考文献:

[1]王德辉,张文斐,邹时容,颜晓强.物联网关键技术在电力物资域的应用.信息与电脑(理论版),2018,(23).

[2]尚小溥; 许吴环; 赵红梅; 张润彤; 朱燊.中文超声文本结构化与知识网络构建方法研究.图书情报工作,2019,63(16).