数字时代档案数据化管理问题研究

(整期优先)网络出版时间:2022-06-13
/ 2

数字时代档案数据化管理问题研究

吴月琴

百色学院 广西壮族自治区百色市 533000

摘要:按传统整理方式,档案以“卷”或“件”的形式存在。从人们写作阅读的思维习惯来看,一份公文或一篇文章即是一“件”。案卷则是为了方便管理和利用,把内容或逻辑相关的档案进行归类形成的聚合体。随着计算机技术引入档案工作,人们开始从数据维度审视档案工作。早期计算机分析处理能力不够强,相关的技术和工具也尚未产生,当时计算机对档案工作的主要作用体现在按传统整理方式建立相应的目录和原文数据库以提供利用。进入21世纪,随着大数据、人工智能等技术不断迭代发展,档案工作逐渐打破以“件”为最小处理单元的传统思路。档案尤其是其内容文本,不应仅仅满足于数字化管理,更应实现数据化管理,融入“大数据”集合,为各类服务提供数据支撑。为此,新时代档案工作者必须要在新的数据视角下探索档案数据化管理。

关键词:档案管理;数据化

1档案数据化管理研究现状和主要问题

从大数据对档案管理工作带来冲击开始,档案数据化管理就日益为档案工作者重视。但现有研究主要是关于档案数据资源的,部分涉及档案服务,关于档案数据化管理的文献较少。总体来看,这些文章主要是将档案数据化管理作为档案工作的前沿方向进行研究,从思维、范式、转型或某个视角进行阐述,较少探讨实现路径,未提出较为系统完整的实现路径。

目前档案数据化管理在实践层面不够充分,主要在电子发票、电子证照、工程档案、科研档案等本身来源就已数据化的电子档案中开展。制约档案数据化管理的主要问题在于:一是未完全实现从数据思维的视角收集和管理档案。如一般要求将电子文件转化为图片或者版式文档的档案数据,这类档案数据从人类阅读的角度看可能较为直观,但从计算机分析的角度则较为不便。二是以数据为颗粒度的电子档案标准未能尽早确立,绝大部分相关标准依然是以“件”为主体而非以数据为主体考虑问题,尚未脱离将文件作为整体的管理思维,这导致档案数据虽然在利用方面更有优势,但在凭证性上得不到相关方面的支持,因此其服务范围受到限制。三是传统手写体档案的OCR识别率较低,提取数据文本多需要人工配合,工作效率较低,往往只能针对某类特别重要的档案开展专项工作。

2 实现档案数据化管理的路径

2.1 确认档案数据凭证

档案是经过整理的规范数据,但问题在于符合何种条件的数据才能称为档案。数据背后有一定的逻辑关系,单纯一个数值序列,如2米、1米、0.8米,并不能让人明白是什么意思,但若告知是一个桌子的长宽高,这些数据就产生了意义。因此,面对数据的集合,要先理清其中的逻辑关系。传统使用的文件或表单都有一定的制式,就代表着背后的逻辑关系。

2.2 保持媒体档案原貌

对于图像、音频、视频等媒体档案,由于其价值本身就在于其媒体性,如图像承载的是一幅书法作品,那么,即使能识别该书法的文本数据,使该书法便于查找利用,也必须保留其媒体数据的原始样貌,否则便失去了作品本身的价值。因此一方面要运用人工智能技术不断提高OCR识别的准确率,另一方面这类档案无论提取的数据信息再怎么精确,原始的媒体仍需保留。可采用将媒体数据原封不动地存放在XML的一对标签里的方式,对其他类似媒体档案的特殊档案也可采取这种做法。这类档案在长期保存时要关注原始数据格式定期转换为当前通用格式的问题。同时,媒体档案确实存在内容识别的难题,但随着技术的不断成熟,可不断提高内容识别的准确度,如图像识别等技术可以帮助我们在电影的某一帧中标记相应的人物信息等。因此作为档案部门,可先按原貌进行接收保存,待技术成熟时再进行相应的数据处理和开发。

2.3 贯彻档案数据治理

“治理”一词原本多出现在公共管理领域。从管理学角度,治理是指规范多元主体参与管理,从而弥补单一力量的不足。在数据化条件下的档案管理必然是多元主体协同参与的档案数据治理。档案数据治理是档案全生命周期管理的各类档案治理主体基于一定的行动规则对档案数据进行科学、规范、高质量管理的过程。在大数据时代,档案数据治理的主体不仅仅是档案部门,更延伸至社会各类组织,因此基于档案全生命周期梳理治理主体,并适当放权、多元中心化,由管理本位转换至治理角色,强调协同治理,是档案数据治理应有之义。

2.4 落实档案数据保存

任何数据管理都必须基于数据的有效保存,而确保档案数据的长期保存更是档案部门的天职。当前,由于新的数字档案爆炸式增长及其类型日益多样化,其长期保存管理模式也日益复杂化,而长期保存管理模式,一则涉及保存的格式和数据组织形式,二则涉及保存的软硬件环境和相关介质。档案部门急需找到一种通用的、脱离依赖关系的保存格式。这种摆脱依赖性的格式必然是简单的,如上文提到的XML,以及我们常见的TXT格式。至于其他展现时即相当复杂的格式,如DWG、WRL、DXF等格式,必然随着时代进步和需求变化而不断进化。长期保存对于档案数据而言,还必须理清其逻辑关系,满足“格式开放、自包含、自描述、自解释”等要求。综合来看,XML更符合大部分档案长期保存通用格式的要求。如上文所述,XML展现形式可在应用层面实现,而底层数据依然采用最原始简单的格式,这就需要档案界和计算机界对此有相应的约定。

2.5 提升数据服务

以数据为颗粒度的档案信息服务能有效解决当前档案服务面临的现实问题,实现这一服务也是档案数据化管理的最终目的。因此在做好档案数据“收、管、存”的基础上,应进一步做好“用”:一是基于数据分析准确按需按权服务,即根据用户的自身情况和实际需求,综合分析该数据在此场景下是否可对该用户进行开放,判断该用户是否有权限获知该数据,做到“应知方知”,确保档案数据利用的安全,同时做到“应知可知”,不因整件或整卷档案的开放控制属性影响其中可对用户开放的档案信息的获取。二是定制化生成和推送用户所需信息,即根据不同的用户需求,智能地组织整理好所需要的信息,包括内容和对应的多媒体,在语义理解的基础上,转化为当前的语言进行回应,同时可引入VR、AR和3D展示等技术,丰富数据展现形式,实现人性化互动。三是跨区域统一共享服务。目前虽然各地陆续建成了数字档案馆,但数据孤岛的问题依然突出,这严重制约着档案数据服务的成效,特别在大数据时代,数据的汇集关联可能会产生新的有价值的数据。档案如能按标准生成,基于统一的交换格式,则天然地具有可共享的特性。因此共享除了行政方面的干预之外,数据标准的统一尤为关键。以数据为颗粒度定义档案数据标准,在共享时会更具优势。由于数据在提供利用时更为准确,安全性更有保障,也为其在互联网等公共网络上的利用提供了便利,如不用在网络上传输整份档案数据原文,只需要反馈用户所需的数据或具有凭证性的码即可。同时,基于数据颗粒度开展档案数据协同共建工作,建立相应共识和长期贡献机制并将其写入系统,有利于各类档案数据主体厘清权利和义务,安全共建共享,激发档案数据资源共享的动力,推动档案数据共享可持续深入发展。四是实时便捷提供档案数据服务。在“马上就办”“一趟不用跑”“最多跑一次”等政策的指引下,档案数据服务的效率也日益受到关注。基于人工智能技术,解决传统开放审核工作滞后问题,使大量有价值的档案数据得以及时开放,并通过文件和档案数据的在线统一交换共享,加速文件归档,方便用户异地查档和远程在线查档,在提升档案服务质量的同时提升档案服务效能。

参考文献

[1] 钱毅.数据态环境中数字档案对象保存问题与策略分析[J].档案学通讯,2019(04):40-46.

[2] 于英香.大数据视域下档案数据管理研究的兴起:概念、缘由与发展[J].档案学研究,2018(01):44-48.