文书档案智能入库的探索实践

(整期优先)网络出版时间:2023-04-20
/ 2

文书档案智能入库的探索实践

杨声键

国家电投上海核工程研究设计院股份有限公司-上海市-200233

一、摘要:

本文介绍了当前文书档案在归档范围和保管期限面临的困难,以及档案分类技术的特点和实现方式,作用于档案管理系统文书自动归档,收获了良好的效果。

二、引言

习近平总书记在中国第一历史档案馆开馆之际,对档案工作作出重要批示——档案工作存史资政育人,是一项利国利民、惠及千秋万代的崇高事业。为贯彻习总书记指示精神,国家电力投资集团以数字化为新起点,开展了一系列探索实践。笔者在借调集团公司期间,有幸见证、参与了文书档案智能入库工作,希望这些实践可以给档案数字化转型和档案工作创新实践提供了借鉴实例。

三、传统文书档案归档面临的困境

(一)归档范围复杂多样

文书档案归档时根据档案归档范围开展工作,其涵盖范围非常广泛。各单位结合工作实际,细化落实了国档局10号令的归档范围要求。以作者所在公司为例,文书档案分为党群工作、行政管理、经营管理、生产技术管理4大类,下辖37个小类、218个条目。归档范围涉及到公司各部门,想要完整、准确归档,必须组织各部门兼职档案人员会同业务人员严格按照要求开展文件甄别和档案移交工作,这在一定程度上增加了业务部门的人力成本。

(二)保管期限差异大

文书档案的保管期限标准分为10年、30年和永久,即使是同一类别的文件,其保管期限也不是完全相同的。例如上级关于物资、仓库管理的通知、物资指标分配、消耗定额、物资节约方面的文件保管期限是30年或10年;而公司土地、房屋、基础设施等不动产产权登记文件材料,重要技术装备、设备等固定资产登记文件材料等保管期限是永久。两类文件都属于经营管理大类中的资产管理文件,但保管期限的差异却很大,归档时稍有不慎就可能出错。

(三)重要程度难以判定

很多归档文件的保管期限是按照文件重要程度来区分的。重要程度可分为重要和一般,不同条目按重要程度对应的保管期限也可能各不相同。例如党群工作中,党员学习教育活动中形成的文件材料、党员组织关系、介绍信及存根、党费收据存根等文件保管期限重要的为永久,一般的为30年;又如公司组织工作、党员干部工作的指示、规定通告、公司党务干部任免、考查、奖励、落实政策等方面的文件材料保管期限重要的为30年,一般的为10年。然而对档案的重要程度如何界定却没有明确的说法,通常只能靠鉴定人员的个人经验。这就可能造成不同个体对同一条目重要程度判断的差异,从而影响档案的入库。

四、智能分类技术方案实现方式

国家电投集团根据公司文书档案归档范围和保管期限,开发了文档分类功能。开发人员对已归档的文书文件进行分析处理,利用业界前沿的语言模型,完成自动分类的建模工作。同时采用文本增强策略、层次语义信息的抽取,知识图谱增强语义表示能力,多角度提升文本分类效果。

(一)文档分类功能概述

一般的分类利用现有的数据挖掘技术,将非结构化问题结构化;但当处理复杂数据时,算法的复杂程度会变高。面对非结构化数据,发展全新的数据挖掘算法直接对非结构化数据进行挖掘。处理语义关系则利用学术界前沿的文本预训练模型来获取文本之间的语义关系。

文档分类功能依赖于文本语义分析处理技术,不但可以处理大量的结构化和非结构化的文档数据,还可以处理其中复杂的语义关系,从而很好的学习到词与词之间的依赖关系。

(二)文档分类功能的技术特点

文档分类功能运用文本数据预处理技术、数据增强技术、神经网络语言模型、特征提取技术和文本分类技术,通过优化整合对档案室库存文书档案进行结构化处理,提取文书档案特征信息,从而自动确定归档文件保管期限。

  1. 文本数据预处理技术

预处理技术包括数据增强、长文本表示、特征表示、特征提取。与数据库中的结构化数据相比,文本只具备有限的结构,甚至没有结构,这给文本数据处理带来了难度。此外,文书档案的内容都是人类所使用的自然语言,计算机很难处理其语义关系。文本信息源的这些特殊性使得数据预处理技术在文本挖掘中更加重要,能够更加精准地提取语料信息。

  1. 数据增强技术

数据增强技术是图像领域的标配,通过对图像的翻转、旋转、镜像等技巧实现数据增强。相较于图像增强,文本数据增强需要更严格的要求。文本数据增强更像是同义词句的生成,但涉及的概念范围更大,它能够解决样本数据量不足及不均衡问题。文书分类系统采取了简单数据增强和回译等一系列数据增强手段来扩充数据量,同时利用标记数据和未标记数据进行训练,让系统在拥有少量标记文书档案的情况下也能获得极致的文本分类效果。

  1. 特征提取

特征提取算法一般是构造一个评价函数,对每个特征进行评估,然后把特征按分值高低排队,预定数目分数最高的特征会被选取出来。用向量空间模型得到的特征向量的维数往往会达到数十万维,这些高维特征对分类学习并不全部是有益、重要的,通常设计会选择2%-5%的最佳特征作为分类数据,以此来增加机器的学习时间。

文本转换为向量形式并经特征提取后,便可以进行挖掘分析了。本功能使用的文本挖掘分析技术是文本分类技术,该技术让机器学会一个分类函数或分类模型,模型能把文本映射到已存在的多个类别中的某一类,使检索或查询的速度更快,准确率更高。

(三)功能设计

功能设立的档案保存期限分类模型,可自动将文书档案保存期限的计算结果输出到档案管理系统,功能分类主要包括小样本学习、长文本分类、定制分类、自动文本分类及分类效果评价等。

  1. 构建分类体系

设计者在给定的样本集合上通过机器学习和人工检查补漏的方式,搭建了最适合集团公司文书特点的分类体系。利用机器学习进行分类训练的分类方法,提供分类样本训练工具,并提供完整的训练及调参说明文档。在体系中加入了支持重复训练和自我学习功能,可以根据使用者的反馈调整训练方式,从而不断完善分类体系。

  1. 自动文本分类

自动文本分类能够对所获取的文书信息进行智能化的分类处理,自动给出稿件的分类属性。借助该功能可以满足在多种分类标准之间的切换,通过参数配置或不同接口实现不同分类体系分类的调用。不仅分类效率高,分类结果经验证准确率高达85%。为了不断提升准确度,一方面,该功能可以从归档库中导入历史公文数据进行分类模型预训练;另一方面,功能通过自学习功能,能够不断地学习人工分类的结果,从而不断完善分类功能。因具备小样本学习能力,虽然部分文书档案的数量不多,系统也仍然可以利用小样本学习能力,达到极致的文本分类效果。另外,功能通过层次语义信息的抽取,不仅可以捕捉词与词之间的关联信息,同时可以捕捉句子和句子之间的关联信息,从而进行长文本分类。

五、智能分类整理功能实现

智能分类整理作为国家电投档案管理系统的重要成果,对文书档案入库起到了极大的便利作用。智能分类集成文本智能处理技术,对OA接口归档文件内容进行分析,并根据分析结果,采用智能分类功能确定归档文件的保管期限,最终实现文书档案的智能分类。为确保入库档案的准确性,增加了人工节点,档案管理人员可以对智能分类后的档案的保管期限进行确认和修改,对于修改后的数据,系统会重新学习,以提高以后归档的准确性。

六、结语

利用数字化技术创立文件分类功能,并通过机器学习不断完善,最终实现档案保管期限的自动归档。希望本文的良好实践,可以为更为复杂的科技档案的自动归档提供创新思路。