大数据与档案管理

(整期优先)网络出版时间:2022-09-05
/ 2

大数据与档案管理

张家滔

深圳中广核工程设计有限公司 518172

摘要:本文以大数据概念为切入口,简要介绍了档案资源与大数据的关系、档案大数据产生的过程、档案大数据给档案管理工作带来的挑战,以及档案资料的数据挖掘等内容。

关键词:大数据、档案资源、数据挖掘

随着信息技术的深入发展与数字时代的到来,企业档案管理的数字化与数据化已是必然趋势,而大数据环境下的档案管理不再局限于对数据的收集、存储、查询等静态管理模式,将馆藏资源转化为知识情报资源,为企业发展服务,必会成为档案管理工作的发展方向。核电档案管理也不例外,“数据驱动的决策方法”对核电档案管理提出了更高要求。首先,从数据来源分析,核电档案资源主要包括几部分,一是:设计、建设、运营等过程中产生的工程技术文件,包括结果文件和过程文件;二是:围绕核电站建设、运营所产生的网络、社交媒体数据,包括行业资讯、技术理论、公众的认知与态度等。然后,从数据结构上看,包含有未加工数据、半结构化数据、结构化数据等。如何将大数据技术与方法运用到核电档案资源管理中,实现档案资源的整合开发和知识共享模式,为相关人员提供科学的行为与决策依据,并建立以数字档案资源为核心,以档案资料收集与整合为基础,以档案情报知识挖掘和开发为手段,以情报知识应用与共享为目标的核电档案资源管理体系,从而变静态馆藏,为动态服务,提升档案工作的附加值是数字化时代下档案工作的核心命题。

一、什么是大数据

大数据(big data),又称巨量资料,是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。在《大数据时代》一书中,大数据亦被描述为不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。大数据具有4V特征:Volume(数据量大,起始计量单位至少是P)、Velocity(速度快时效高,处理速度快,时效性要求高)、Variety(类型繁多,多类型的数据对数据的处理能力提出了更高的要求)、Value(价值密度低,数据价值密度相对较低),4V特征也正是大数据区别于传统数据最显著的特征。

二、大数据的产生

过去,档案检索主要依靠人工著录、结构化检索。随着信息技术的不断进步,计算机辅助档案管理使档案管理变得便捷和高效。档案数据主要来源于两个方面:一是各业务部门通过业务流程系统产生的业务数据转化为档案数据;二是档案管理部门通过人工搜集、分类、整理、归档转化的档案数据。

信息技术条件下业务系统产生的档案数据具有及时、广泛、数据量大的特点,同时信息化的业务流程系统的启用也较大的改变了档案工作的价值定位,档案管理前端控制理念可以更为恰当的运用于档案数据生成环节,将档案管理要求根植于数据生成阶段,在一定程度上确保了档案数据的规范、准确。另外,业务流程的普遍信息化业极大的缓解了档案工作的劳动强度,将其从信息著录、数据核对等纷繁复杂的工作中解脱出来,为进行档案数据的价值深加工提供了契机。

档案部门除了利用业务活动收集档案数据以外,还采用人工方式生成档案数据。比如将馆藏实体档案通过数字化加工转化为档案数据,在企业中最为常见的就是在经营活动中产生的各类纸质文档、特殊介质档案以及实物档案等。

三、档案管理工作的挑战

随着企业的发展,业务不断扩张,文档数量急剧增长。在企业存续期间,文档大批销毁之前,企业文档数量的增长将是不可逆的。如设计行业设计生产工具的革新,已由手工绘图的设计模式向着二维或者三维计算机辅助的设计模式的转变,随之而来的即是设计生产活动中产生的文件和数据呈爆炸性的增长,最终需要作为档案保存下来的文件也相应的增长。传统的检索方式所产生的结果,已无法准确的满足用户的要求,多数情况下,检索已经变成了大海捞针,对于档案用户而言,更希望于能够在最短的时间内、使用最快捷的查询方式来得到自己所期望的检索结果。

四、业务方式转变

档案数字化,档案数字化是数字档案建设最基础的工作,是档案数据挖掘的前提条件,传统载体的档案经高科技技术加工成数字档案形式,通过局域网、政务网、互联网进行计算检索、阅读电子档案。完整的档案数字化建设流程包括案卷交接、档案整理、目录著录、档案扫描、图像处理、OCR文字识别、数字校对、数字质检、数据挂接、整理还原、案卷入库等环节。

档案管理流程优化,传统的档案信息管理一直停留于档案目录管理、分类、归档、存储及简单的统计查询,档案大数据的关键信息需通过一定的技术方法进行提取,并针对提取出的有效信息根据一定的规律进行挖掘。只有满足不同档案用户的信息需求,数据挖掘技术才会发挥巨大作用。在海量的档案信息挖掘中主要采用文本数据挖掘技术,这相当于文字分析,一般指文本处理过程中产生高质量的信息。

文本数据挖掘的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是文本数据挖掘的基本技术,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;文本挖掘有两个主要应用领域,信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。如图所示:

档案数据关联,大量设计档案资料进行了加工处理,包括建立工程文件、工程函件关联关系,纸质文件电子化、非结构化文档数字化等工作;利用条形码技术实现纸质档案无人值守式扫描,减少人因失误,实现文件扫描、拼接、关联的自动化;并在此基础上,开展数据检索平台的研究,提出并开发了全文检索系统的构想与实施方案。

数字化时代已经到来,对文档人来说,这是最好的时代也是最坏的时代,流程信息化已经向流程数字化迈进,伴随着几何级数的数据爆炸增长,文档管理的思路和能力必须快速迭代,只有充分利用大数据等先进信息化技术手段,跟随数字转型时代起舞,才能不为未来所抛弃,构建文档人自己的大数据时代。

[1]周耀林 常大伟.我国档案大数据研究的现状分析与趋势探讨[J].档案学研究,2017.03.006

[2]朱茜.大数据时代数字档案资源管理研究现状与趋势分析[J].卷宗,2020.15