数字政府背景下山东省政务数据标准化建设研究

(整期优先)网络出版时间:2024-04-10
/ 2

数字政府背景下山东省政务数据标准化建设研究

张洁  薄涵月

(山东协和学院商学院,济南 250107)

摘要:数字时代驱动数字政府建设加速推进,而政务数据标准化是数字政府建设的基础性工程。本文描述了政务数据标准化的内涵,通过分析山东省政务数据标准化方面存在的问题,继而提出山东政务数据标准化建设方案,以提升山东省数字政府建设的规范化水平。

关键词:数字政府,政务数据,标准化

一、政务数据标准化的内涵

政务数据标准化是通过对政务数据进行规范管理,如统一数据格式、完善数据统计标准和规则、促进政务数据的通用性、深化数据资源整合,使其在资产化过程中能顺利实现共享和交换。另外,还包括从制度规范、要素统计、数据管理和开发应用等方面实行标准化建设。数字经济背景下,资源共享对政府部门的数据标准化建设提出了更高的要求。

就数据标准化建设,山东省人民政府于2019年底发布了《山东省电子政务和政务数据管理办法》,2023年山东省人民政府关于印发山东省数字政府建设实施方案的通知,明确提出全面建设开放共享的数据资源体系,加强对政务数据、公共数据和社会数据的统筹管理,加快构建标准统一、管理协同、安全可靠的全省一体化政务大数据体系。

二、山东政务数据标准化存在的问题

1.缺乏完善的政务数据方面的法规

目前,山东省政务数据在信息共享方面取得一定进展,但目前政务数据安全管理方面的法规仍需要进一步健全。目前存在较多的是各地市发布的地方政府规章或规范性文件,这些规章或文件在内容上虽有交叉,但不统一。

2.缺乏统一的数据标准

由于在政务数据统计方面缺乏统一的技术标准,不同的部门或者不同级别的政府统计政务数据存在很大的差别,这不仅增加了政务数据清洗的工作量,也增加了数据的运营成本,不利于政务数据的共享和交换。

3.元数据规范程度低

就元数据来说,各级政务部门系统间的数据在名称、语义、格式、类型、字典、信息资源目录等方面不一致,阻碍了数据交换和应用,限制了政务数据效能的发挥。亟需通过规范化手段加速数据标准化建设。

4.对开放数据集的描述不全面

虽然越来越多的政府部门逐渐上线开放数据平台,但数据目录中数据覆盖面较窄,数据集的描述形式有限,且格式较为单一,一定程度上影响数据共享开放的效果。

二、山东政务数据标准化方案

关于元数据的标准化,通过分析山东省关于政务数据的元数据管理规范和核心元数据规定,发现对外开放的政务数据信息资源描述,普遍采用DC元数据和DCAT词汇,这些元素涵盖面较广、应用简单、便于检索,可方便政务数据的描述与共享。

2022年,为加强数字政府的建设促进政务数据共享开放,国家提出构建全国一体化政务大数据体系建设,而政务数据缺乏统一的标准化支撑仍是一体化建设中的难题。本研究通过各地方政府制定的元数据标准和规范,结合国际通用的元数据标准以及借鉴国外发达国家的政务数据标准化经验,从内外两方面提出山东省政务数据元数据标准方案,以促进对政务数据的共享开放和资产化进程。

1.外部描述标准化

山东省政务数据涉及的范围广泛、数据量大、形式多样,在选择资源描述的元数据时,需要选择涵盖面广、有一定描述深度且简单通用的元数据。因为DC的应用面广、通用性较强,被国内外政务部门广泛使用。在选择外部描述元数据时,各政务部门以扩展性为基础,先使用DC元数据,再复用或嵌套DCAT中的描述性数据词汇,一般可以覆盖描述政务数据所需要的词汇。在各地政府平台整合出下列扩展词汇,见表8。

表1 扩展词汇表

词汇

定义

数据集类型

该扩展词汇用于描述数据集的类型

数据集分类

该扩展词汇用于描述数据集的国家分类、行业分类和部门分类

历史数据

该扩展词汇用于描述以往历史的数据集

数据热度

该扩展词汇用于描述数据访问数量、数据的下载次数、分享转发的次数、数据订阅的人次、数据评论的次数以及评分的高低等

关于DCAT的对外描述对象,本研究按整体与部分的层次级别,分别从数据目录、数据集和数据资源这三个方面来介绍。第一,数据目录是政务部门中所涉及数据资产的一种清单,它是包含了元数据集合的数据库,起到索引、分类和数据管理的作用,其项下的基本单元是数据集。第二,数据集是由政务部门收集并管理的,通常以表格或文件形式存在,反映的是特定主题的信息集合,是数据展现和分析的基础,也是外部描述的核心对象。从数据集中可以获得RSS源、数据来源和共享的数据文件等,用户通过对原始数据和数据模型分析,便于发现、理解和挑选适当的数据,以为决策提供依据。第三,数据集项下的具体分类为数据资源。根据上述定义,图4反映了数据目录、数据集与数据资源之间的关系。

图1 数据目录、数据集与数据资源

第一,数据目录元数据。数据目录对数据使用者来说起到索引作用,政务部门根据统计需要和行业需求对数据集进行归类,用户在使用时根据所需可按数据目录指引查找。本研究通过广泛调研各政府部门的数据平台,发现在数据统计中所有数据目录都是由不同主题的数据分类构成。在政务数据的标准化建设中,也采用主题划分的方法,选择信息统计时方便归类的一些词汇,包括可选词汇和必选词汇。比如必选词汇有:数据集、数据集主题分类、发布单位、更新日期;可选词汇有:数据类型、描述、标识符、发布日期、数据格式、

第二,数据集元数据。根据对数据集外部描述信息的不同,可以将数据集属性分为标识类属性、管理类属性、限制类属性、互动类属性四种。本研究根据这四种数据属性,结合对国内外数据平台的调查研究,选定出15个必选的关键词汇。分别为标识类属性下的题名、描述、标识符、关键词;管理类属性下的发布日期、更新日期、更新频率和发布单位、联系人名和联系邮箱、下载地址;限制类属性下的限制许可,互动类属性下影响数据热度的访问次数、下载次数和数据评论。

第三,数据资源元数据。表示数字资源的元数据可以指引用户获取相关数据资源,但与上述两个元数据相比,下载类描述词汇数量上较少,集中为方便用户获得数据资料而服务的一些下载数据集,即有下载地址、获取地址和数据格式等核心必选词汇,也包括历史数据和题名为非核心可选词汇。

第四,构建元数据描述框架。在分析完上述外部描述的三个方面之后,为描述元数据之间的交互性,我们可以根据这三者之间的关系建立一个三层次的元数据描述框架。最外层为数据目录,其囊括着数据集;中间层为数据集,其里面又包含着数据下载;最里层是数据下载,借助URL达到不同层次之间的链接,如图5所示。

2.内部描述标准化

为满足信息使用者对数据内部结构的了解,在政务数据信息的统计中,需要对一些内部字段进行更加详细的描述。因为政务数据涵盖的领域较为广泛,不同行业的数据在内部结构描述上面有很大差异,不同政务部门在内部结构描述上体现在数据结构以及语义的表达形式不同,而政务数据的标准化需要在内部描述方面逐步形成统一的表达方式,以顺利实现信息的共享和互通。

第一,确定元数据格式。常用的开放数据格式有JSON、XML、RDF、CSV,每种数据格式有不同的优缺点。

第二,语义标准化。除了元数据格式方面的统一,不同地区以及不同领域的元数据内部描述,语义表达差别也比较大,而元数据在语义上的不一致不利于信息在共享时的理解,增加了数据描述的难度。

第三,规范共用词汇。行业里的词汇共用可以很大程度上增加描述的标准化,比如通过制定本行业的数据字典,各地各级政务部门统一使用,可促进数据描述的标准化。

总之,通过内外部描述的标准化建设,建立统一目录体系,强化数据资源供给,健全数据管理机制,才能有效促进数据汇聚和共享,打造数字政府,提高政府的办事效率。

参考文献

[1]王业军.数字经济背景下政务数据资产化创新策略研究[J].中关村,2023(12):120-121.

[2]张群,尹卓,王为中,李冰,贾晓杰.我国大数据标准化发展历程与展望[J].信息技术与标准化,2023(07):52-60.

[3]张亮,黄金.加强数字政府数据标准建设[J].中国发展观察2023(06):103-105.

[4]郭明军,安小米,李韬,等.政务数据与社会数据对接利用的实现路径:模型构建及实践应用[J].图书情报知识,2023,40(02):152-160.

[5]史丛丛,张媛,赵一新.数据要素标准体系建设研究[J].信息通信技术与政策,2023,49(04):16-21.

作者简介:张洁,山东协和学院,市场营销教研室专任教师

薄涵月,山东协和学院,2022级市场营销专业学生