浅析大数据治理

(整期优先)网络出版时间:2023-02-14
/ 4

浅析大数据治理

金凯

贵州省信息中心  550001

摘要:大数据时代背景下,触手可及的海量数据已成为任何组织都无法忽视的新型资产,如何从中挖掘重要信息,支持企业高层管理决策,成为发挥数据最大价值的关键问题。数据治理因其在挖掘数据价值中突出的作用,越来越受到广大学者的关注,对数据治理的研究工作也越发广泛。文章从大数据基础概念切入,介绍数据治理三种经典框架、项核心管理和类计算模式,描述数据治理体系的基本内容和流程,为读者了解大数据治理提供参考。

关键词:大数据;数据治理; 数据管理;计算;

0 前言

伴随着社会信息化程度的进一步提高,全球市场信息和基础数据急剧增长,海量数据累积,为数据分析和管理带来一定难度。而且,业务新增也催生了数据类型的多样化,各业务系统之间无法形成数据完全畅通,数据应用无所适从,愈发体现了大数据治理技术在数据处理中的重要地位。数字化转型的浪潮下,无论是政府还是企业、社会组织,都迫切需要加强大数据治理建设,利用自身数据和技术优势进行市场分析,为战略决策、业务决策提供科学指导,提高工作效率,降低成本。随着大数据在各行业中的渗透,数据治理体系将对社会生产和生活发挥更加深远的影响,进一步提高人们生活质量。

1 大数据治理概述

国际数据管理协会(DAMA定义数据治理是在行使数据资产管理的权力和进行控制过程中发生的一系列活动集合。国际数据治理研究所(DGI认为数据治理可以看作一个系统,它通过一系列与信息相关的过程来实现职责分工和决策权。中国GB/T 34960《信息技术服务 治理》数据治理被定义为对数据资源及其应用开展管控、绩效和风险管理的系列活动。换句话说,数据治理是要将分散、混乱、复杂的数据进行整合加工,变成标准规范的数据实施管理,形成从数据产生、采集获取,到处理应用的全生命周期监管其目的是要确保数据资产管理活动规范有序、风险可控,进而提高数据质量,实现数据价值最大化[1]。大数据治理属数据治理范畴,是数据治理中的新领域、新活动,因管理数据的海量规模特性,而与一般的数据治理活动略有不同。归根结底,大数据治理活动所依赖的方法论,与数据治理方法论相差无几,目标一致,要求严格契合的过程和规范,保持强约束性和纪律性,从而创新数据服务,创造数字化价值。

2 大数据治理框架

2008年,国际标准组织(ISO)推出IT治理国际标准ISO38500,包含了IT治理原则、目标和模型等框架体系,ISO认为数据治理也可以应用此框架。国际信息系统审计和控制协会(ISACA)建立COBIT5标准,包含五项基本原则,为数据治理提供了一种原则驱动性的方法论。此外,还有国际数据管理协会(DAMA[2]、国际数据治理研究所(DGI[2],以及中国信息技术服务标准(ITSS都提出了对数据治理的理解并构建相应的框架模型。

2.1 DAMA数据治理框架

DAMA作为最早开展数据管理的国际专业组织之一,它认为数据治理从属于数据管理,是其中的重要组成部分,所以数据治理的最终目标是更好地进行数据管理。根据此观点DAMA推出数据管理知识体系(DAMA-DMBOK),充分总结数据管理的功能,并设计构建了涵盖数据治理操作核心领域的功能模块,包括数据架构管理、数据建模与设计、数据存储与设计、数据安全与管理、参考数据和主数据管理、数据仓库和商业智能管理、数据集成与互操作管理、文档和内容管理、元数据管理、数据质量管理(如图1所示)。


1 DAMA数据治理框架

2.2 DGI数据治理框架

DGIISODAMA的观点有所不同。首先,DGI认为数据治理不应采用IT治理的框架,而需要建立一套独立的数据治理框架体系。其次,数据治理虽然与数据管理相关,但并不存在任何从属关系[3]。基于此,DGI总结数据治理核心要素,从规程、组织、流程三个方面来建立自成一体的数据治理框架,充分展示各要素组件之间的逻辑关系,描述了数据利益相关者(WHO)在何时(WHEN)、何地(WHERE)、因为什么原因(WHY),采取什么样的方式(HOW),开展什么(WHAT)活动的完整流程,为企业、组织决策活动提供了新的参考方法。

2.3 ITSS数据治理框架

2015年,中国在巴西圣保罗召开的SC40/WG1第三次工作会议上,提交《数据治理白皮书》,向国际同行展示了中国关于数据治理的定义、范围、框架等国际标准设计。ITSS数据治理框架从中国实际情况出发,强调数据标准建设,致力于在明确目标的前提下,考虑底层活动与流程,研究关注域和构成要素,从而形成自下而上的业务逻辑。ITSS还提出建立由原则、范围、实施和评估三个维度组成的数据治理框架模型。其中,数据治理的主要工作任务共有九项,分上中下三层开展。下层为基础层,包含数据的运营、架构和开发;中层为保障层,包括数据安全、数据质量和元数据,作为上下层的承接;上层为应用层,包括数据仓库、主数据和大数据,作为对实施战略的有力支撑。

GB/T 34960.5《信息技术服务 治理》第五部分:数据治理规范,将ITSS数据治理框架进一步发展,建立由顶层设计、治理环境、治理域和治理过程构成的数据治理框架(如图2所示),致力于实现创新服务,实现风险可控、运营合规、价值最大化的目标。


2 国家标准数据治理框架

3 大数据治理核心内容

3.1 数据标准管理

数据标准管理是对数据标准含义、内容、方法和程序进行规范化管理的活动。推进数据标准化是保证数据质量的前提和必要条件,为数据治理提供全面的管理规范、流程和方法,保证平台数据的规范性、有效性、完整性、一致性,维护数据来源的权威性和准确性[4]。数据标准化、统一化是信息共享的基础,为建立统一数据模型和开发系统应用提供了保障。统一的数据规范和标准,不仅解决了组织内部数据不完整、不一致的问题,还减少了跨部门沟通的时间成本,提高了组织办事效率。

数据标准的合理性,决定了数据治理、数据管理的效果。为保障数据标准化的顺利制定和实施,需要综合考虑组织整体建设和战略发展目标,建立数据标准管理组织,明确管理责任和阶段内容,推动数据标准建设。通常可以数据标准管理组织划分为决策、管理和执行三个职能层次(如图3所示)。


3 数据标准管理组织示例

3.2 数据质量管理

作为数据治理中的重要环节,数据质量管理要求对数据从获取、存储、处理、应用及消亡的全生命周期内存在的质量问题进行识别管控和监测预警[4]。数据质量管理不到位,不仅不能获取到足够有价值的信息数据,还将造成分析结果无效或不具备指导作用。从业务、技术和管理角度来说,企业和社会组织通常存在七个方面的数据质量问题(如图4所示)。


4 数据质量问题

真实性:数据不能真实反映客观存在的主体或业务状况,或存在弄虚作假;

准确性:数据不能保证准确无误,不够安全可靠,失去分析的意义;

唯一性:存在重复冗余数据;

完整性:数据前后不连续、不连贯,无法保证完整无缺损,;

一致性:多源数据不一致(包括命名、规则、编码等);

关联性:数据关系缺失;

及时性:数据过时,对当前分析没有太大价值

3.3 元数据管理

元数据是指可以用来描述、定义其他数据的数据,通常包含技术元数据、业务元数据和管理元数据。其中,技术元数据存储数据仓库系统中的技术细节,多用于协助开发人员和仓库管理员对数据仓库进行开发、管理,提高工作效率。业务元数据通常用来描述数据仓库数据的业务属性,帮助业务人员理解数据含义。管理元数据主要包含开发、运维、数据处理等管理过程信息或数据。

元数据管理贯穿于数据仓库的整个建设过程,主要包含对数据项属性进行管理的各类活动。国际标准组织OMGObject Management Group)基于UMLUnified Modeling Language)、MOFMeta Object Facility)、XMLXML Metadata Interchange)三项工业标准,建立了公共数据仓库模型CWMCommon Warehouse Model),为元数据的共享、转换等管理活动提供了统一的标准。当前,大部分数据仓库和元数据管理工具都已采用或支持CWM,为开发、管理人员以及最终用户提供了便利。CWM共有对象模型层、基础层、资源层、分析层、管理层五层架构,每层架构包含一定的包(Package),用来控制复杂性,分类阐述CWM架构各模型元素。

3.4 主数据管理

主数据是反应企业、组织核心业务状态属性的基础信息,是能满足其跨部门协同应用、共享的核心数据。开展主数据管理,就是要按照统一的数据标准,对核心数据进行分层、域划分、构建模型架构、以及建立相应管理规范等。主数据管理(MDM)要求协调与核心业务实体有关的数据,保证其一致性,消除冗余数据,提高工作效率。除必须的标准体系和保障体系外,主数据管理活动还依靠管理工具或平台来辅助实现。主数据管理工具一般具有数据建模、数据管理、数据整合、数据服务、标准管理和基础管理等功能模块,支持对已识别主数据进行规范治理和改造,打通企业、组织工具链与业务流的串联,实现主数据全生命周期管理。在搭建、布置主数据管理工具之前,通常需要对企业关键业务流程进行梳理,从技术、业务和管理等方面进行需求调研分析,完成定制开发。

3.5 数据生命周期管理

数据从需求研究采集获取、存储共享、处理分析、再到运维、退役,是为完整的数据生命周期。大数据时代,由于爆炸式的数据增长,导致数据在生命周期每一环节的管理活动都面临巨大挑战。制定合理的管理措施,降低存储资源消耗,保证数据安全,提高数据访问、提取效率,降低成本,是数据生命周期研究的重点方向。按照数据类型可以将数据管理分为静态数据生命周期管理和动态数据生命周期管理。静态数据因其特性,在不同的阶段,其可用性和使用频率也有所不同。例如:在数据产生初期,访问频率较高,而随着时间推移,其重要程度和使用频率也逐渐下降,则可以使用较低等级的存储手段,以降低管理成本。


5数据使用频率变化情况

3.6 数据安全与隐私管理

数据安全是指基于数据标准管理、数据安全分级与使用人职责划分,建立数据使用授权范围、流程及其他数据安全保护措施。数据安全与隐私管理贯穿于数据治理的各环节流程,为企业、组织提供隐私数据加密、脱敏和模糊化处理技术,对数据使用授权进行安全监控,确保数据安全流通、使用。大数据治理活动中,采用更加自动化、直观化的视图技术,识别敏感信息和数据,配合大数据相关政策,保护个人隐私。大数据产业在不同国家的发展和政策有所区别,在制定大数据安全保护及数据隐私管理措施时,需要充分吸收当地特色,规范使用数据溯源、匿名保护、角色挖掘等技术,及时发现甚至预判隐藏危险,发出预警信息。

4 大数据计算模式

大数据计算模式,是指对导入系统中的数据进行计算,提取所需信息的操作。在此过程中,需要用到大数据计算框架,或大数据处理引擎,经过系统接入数据、计算分析、结果展示(数据可视化)三个主要流程。按照数据形式和需要解决问题的不同,大数据计算模式通常分为批处理计算、流计算和图计算。

4.1 批处理计算

批处理是日常数据分析中较为常见的一种数据处理方法,主要针对大规模、数据集的批量计算,其数据具有海量、静态、有限的特点。在批处理时,一般会将任务分解,调入集群不同计算机中进行计算,然后组合中间结果进入下一阶段计算、组合流程,得到最终结果。由于其处理时间通常较长,因此不适合用于有较高延时要求的场景中。

Apache Hadoop是典型的批处理系统,主要组件包括:Hadoop分布式文件系统(HDFS)、资源管理器(YARN)、Hadoop默认数据处理引擎(MapReduce)。其中,HDFS具有高容错性,支持高吞吐量的数据访问,可用以存储数据源或计算结果。YARN用于管理服务器资源,调度作业运行。MapReduce作为是最早的大数据批数据处理技术,具有高容错性和高可靠性,它通过将复杂的数据集合任务进行切分,抽象计算过程并先后由MapReduce两个函数进行处理,用于海量数据集的并行计算。此外,Spark也可以作为超大数据集的分布式计算系统,且由于它使用内存或本地磁盘存储中间计算结果,无需经过HDFS,因此计算速度比MapReduce快。

4.2 流计算

流计算与批处理计算不同,不针对已存在的数据集,而是针对外部接入或实时产生、连续不断的数据进行操作,因此具有很强的时效性,适用于有较高延时要求的场景[5]。流计算可以分为逐项处理和微批处理,前者每次处理单条数据,而后者则将一段时间内的小批次数据进行统一整合处理。大数据时代背景下,市场和企业决策人迫切需要对动态流数据实时响应,提高应变能力,这就给了流计算更为广阔的推广空间和应用场景。目前,典型的流计算系统包括:Apache StormApache Samza

Apache Storm是一种分布式流处理系统,侧重于低延迟,以近实时的方式处理海量数据。在Storm中,通常由产生源数据流的组件(Spout)拉取数据(Stream),转入Bolt进行处理和输出。Apache Storm现主要用于实时分析、持续计算、在线机器学习和分布式ETL等方面。

Apache Samza共有三个层次:数据流层、执行层、处理层,分别由Kafka架构提供数据流,YARN提供资源管理工具,而自身则提供API用以操纵数据流。Apache Samza虽然较为依赖KafkaYARN,但它非常适合不同团队间合作开发项目,处理不同阶段数据流。

4.3 图计算

现实生活中,社交网络、知识图谱、交通网络等场景通常可以用图(Graph)结构方式呈现,而用来抽象描述其关联的数据被称为图结构数据或图数据。图的结构特点允许其融合不同类型和不同来源的数据,并置于同一个图中进行计算和分析。用来进行图数据处理的技术,被称为图计算。图计算以一种抽象灵活的方式将人、物进行连接,形成关联数据,为大数据分析提供了新的计算方法。计算中,有时会对图数据进行划分,将一个大图划分为若干子图,降低访存随机性,提高系统效率。目前,图计算领域产品有:PregelGraphXGiraph等,蚂蚁集团构建的TuGraph平台也为图计算提供了一种可行的架构系统,已在金融、互联网、能源等领域得到应用。

4.4数据可视化


数据可视化是以图形化的手段,将大数据分析结果进行直观展示的过程,是向用户传达信息,进行交互的技术手段。在进行数据可视化设计时,需要经过几个主要步骤,即:输入、处理、输出(如图6所示)。其中,输入阶段包括可视化任务需求分析,描述数据属性并选择合适的可视化处理模型;处理阶段包括对输入数据的清洗加工,选择视觉编码并与数据进行映射;输出阶段包括选择合适的图形绘制与展示的工具,最终调整生成可视化数据结果。将数据进行可视化图形展示,有利于发现事物原理,找到业务数据中隐藏的规律和逻辑,为管理决策提供支撑。

6数据可视化流程

5 结论

大数据发展至今,在大到国家治理,小到企业和社会组织管理活动,都缺少不了大数据技术的身影。但在实际应用中,也存在着数据标准不统一、散乱不规整、类型多样、质量低下、利用率不高、元数据类型多样且变换频繁等问题。大数据治理体系不仅能有效改善此类问题,提高数据质量,还能促进数据资产转化,形成价值数据,直接或间接为企业组织带来经济效益,从而提升企业价值和竞争力。

参考文献

[1] 张豹,陈渊.大数据环境下数据治理框架的特点及应用[J].电子技术与软件工程,2019(16):162-163.

[2] 冉冉,刘颖,胡楠,王丹妮,曲睿婷.大数据环境下的数据治理框架研究及应用[J].电子世界,2018(24):129-130.

[3] 肖洁琼,奉国和.国内外数据治理模型对比分析[J].文献与数据学报,2020,2(02):14-25.

[4] 李泓燊,周波,李晓科,董健翔.基于大数据的实时数据治理系统设计[J].数字技术与应用,2021,39(12):155-157.

[5] 范志华,李文明,叶笑春,范东睿.数据流计算研究进展与概述[J].数据与计算发展前沿,2021,3(05):65-81.

金凯;19819;;;贵州;高级工程师;大学本科;政务信息化建设、大数据技术及应用