智能型数字化档案室建设研究

(整期优先)网络出版时间:2022-10-19
/ 2

智能型数字化档案室建设研究

孙丽1徐琴2

1身份证420111197309145668;2身份证510122198102060021 中国水务投资有限公司

【摘要】聚焦数字档案室系统建设和内容建设,基于数字档案室建设指南体系之上,进行企业的数字化转型,其中重要的一点就是档案的数据化和智能化。本文理论结合实际,从“自动”、“深度”、“主动”以及“智能”四个方面构建智能型数字档案室应用策略,最终实现自动化整编,深度检索、主动利用和智能编研服务。

【关键词】人工智能  智能编研  自动分类  深度检索

一、引言

      近年来,随着信息化与数字化的快速发展,人工智能技术已经应用在各个行业领域,其应用也为档案管理工作带来了一系列历史性变革与发展的机遇。通过人工技能技术改变传统档案管理模式与方法,提升档案管理生产力,为提升企业核心竞争力提供信息服务显得尤为重要。

二、自动整编以及智能化利用

(一)自动整编

目前档案实行“双轨制”管理、“双套制”归档模式,需化费大量的时间花费在档案电子、纸质档案资源的审核、整理、归档上,人工对纸质与电子文件进行检测、鉴定保管期限、编号(文件页数的编页、档号章的编制)、分类、组卷、划控。没有足够的时间和精力放到更为重要的档案资源价值的挖掘和档案信息的利用方面。因此,企业需要在管理模式上做出改变,由过去的“重管理,轻利用”向“轻管理,重利用”的方向转变,但轻管理不是不管理,是通过引入智能化手段,实现档案数据从业务系统到档案系统的全流程的智能化整理,最终实现业务档案的自动归档。

通过收集传统人工整理过程中的经验和方法,对全业务流程进行梳理,完成自动化替代解决方案。通过提取元数据信息自动增加归档章,利用算法,按照排序,分类同时自主组卷,形成表单化档案数据。通过预定的规则和算法,完成自动鉴定,自动编号、自动组件,自动归档。

(二)智能编研

档案编研工作旨在提炼档案精华、发挥档案价值、助理企业发展,通过组织和重构档案素材,形成各类专题和成果,满足领导决策和广大工作者的利用需要。这就需耗费大量的时间和精力,调阅大量的档案数据。其次对档案管理人员的专业性有较高的要求,熟悉编研工作的规律和方法,但也不可能把企业档案个体及关联都分析透彻,做到即时按需而用,再者,需要编制专题时,也是以人为主导,对指定专题进行编研,只能做到因用而用,而不是因需而用。仅依靠传统的编研形式和方法已经无法满足编研的精细化和成果的精准化要求。

自动抽取每份档案的关键词及摘要,形成档案编研素材源,做到随时可用;结合指定专题编研策略对素材源进行智能识别和匹配,自动形成编研素材和编研原始成果,做到想用能用;对增量档案数据自动收录到素材源,同时利用智能识别技术捕获新型事物,挖掘利用需求,自动构建或推荐新专题,做到因需而用;根据历史查阅和利用记录,自动归纳分析广大用户利用需求和利用偏好,自动将新成果、新专题推送给广大用户,做到按需而用。自动分析档案之间有机联系,形成数据关系网,满足用户深度利用,做到“知其然而知其所以然”。

(三)智能检索

目前,在检索手段上,仍然是人工输入关键词来进行检索,虽然有全文检索作为技术支撑,但在当下软硬件智慧化的大趋势下,检索手段过于单一;其次,随着数字化、电子化资源的逐渐增多,尤其是多媒体档案诸如图像、音频、视频、多维模型等,数据类型也在增多,现有的检索手段很难命中这些档案,导致检索不全和检索不准;再者,在检索结果反馈呈现方面,形式也很单一,忽略了档案之间的关联关系,也忽略了利用者的检索诉求。

智能搜索技术融入了用户兴趣自动识别、内容的语义理解、智能化信息过滤和推送等功能。在档案检索工作中可以引入智能搜索等技术,有效解决当前工作存在的短板,使档案检索工作有一个质的提升。具体内容如下:

(1)拓宽检索需求输入入口,增加对语音和语句的支持,引入以图搜图理念,通过对语音、语义、图像的识别来检索档案信息,解决当前仅用关键字词的需求输入入口过于单一的问题;

(2)扩大档案资源可检索范围,通过语音识别、图形特征建模等手段将图像、音视频等特殊格式文件纳入可检索范围,解决档案信息资源检索不全、不准的问题;

(3)优化检索结果反馈呈现形式,建立以知识图谱为基础的展示形式,充分展示档案自有信息及其内在关联关系,解决当前传统的档案资源孤立展示带来的利用不充分问题;

(4)通过用户偏好分析,主动自动进行档案检索工作,通过智能推送满足利用者即时利用的需求。解决当前档案资源信息被动检索、被动利用的问题。

(四)定向发布

从现在各方面看,企业内部利用档案的意愿越来越强,要求也越来越高。档案作为宝贵的信息资源,发挥着其查考价值。传统的档案被动检索利用的模式,利用人员需掌握被利用档案的一系列基础信息,而且也关系到档案的时效性等多个方面。

通过分析实体借阅量和电子档案利用量,实现对用户档案利用的匹配度判断,完成档案利用智能分析,来加强高利用率档案的电子档案管理定向发布,并实现档案信息的定向推送,提高档案利用服务的主动性、针对性和高效性,充分发挥档案价值。

三、可行性分析

智能搜索技术在公共信息网络的主流搜索平台上得到了成熟应用,国内代表有:百度、搜狗、搜搜、必应等;国外代表有:WolframAlpha、Ask jeeves、Powerset、Google、维基等,智能搜索引擎具有信息服务的智能化、人性化特征,允许网民采用自然语言进行信息的检索,能实现一站式搜索网页、音乐、游戏、图片、电影、购物等互联网上所能查询到的所有主流资源,为他们提供更方便、更确切的搜索服务。

搜索引擎的技术可用于推荐系统完成档案主动推荐与服务,搜索引擎解决运算性能的一个重要的数据结构是倒排索引技术(Inverted Index),而在推荐系统中,一类重要算法是基于内容的推荐(Content-based Recommendation),这其中大量运用了倒排索引、查询、结果归并等方法,另外点击反馈(Click Feedback)算法等也都在两者中大量运用以提升主动提供推荐服务的效果。

综上所述,智能搜索、知识图谱、以图搜图等技术在公共领域应用已经很成熟,本课题拟将此成熟技术引入档案领域,在档案领域依托企业内部档案数据资源为企业广大工作者提供服务,在保证数据安全的前提下,完成档案资源数据的深度挖掘和增值。

四、风险分析与对策

(一)安全风险

档案自动归档需要进行数据模型,建模过程中需要对大量的、异构的、多元的历史档案数据进行模型训练,建模过程将会需要采集大量档案数据做整合训练,相关合作技术团队可直接或间接接触到档案数据,在内容防扩散方面和数据安全管理方面带来了挑战。

针对数据安全风险,可形成固定的研究团队,对数据进行严格保密,并组织专业技术人员形成监管小组,建立电子档案安全保密制度,签订安全保密协议,并对研究团队人员进行安全保密教育。建立监管机制,对技术研究服务机构的保密、安全措施落实情况进行监督、检查,杜绝研究服务机构擅自复制、留存、使用档案数据的行为。

(二)技术风险

人工智能技术的开发对比目前的档案管理系统而言,对档案管理软件供应商需要有较高的技术要求,对提供人工智能服务的科技公司又有一定的业务门槛,如何基于档案业务结合人工智能技术需要选择合适供应商,具有持续的技术开发能力,最大限度的满足企业对系统的开发需求。

针对技术风险,可选取技术能力较强,稳定的档案管理软件供应商进行长期合作。加强沟通与协商,从规划制订到项目实施,请供应商全程参与,以充分了解需求,将可能的技术难点考虑全面。

五、结束语

“大数据+”时代,人工智能对各行各业都造成了深远的影响,档案行业也不例外,将人工智能技术与档案工作紧密结合,充分挖掘先进的信息技术,业务引领技术,将大数据分析、AI技术引入到档案行业使管理与利用变得“智慧化”,从而实现实体管理智能化、档案归档智能化、档案利用智能化等,终将迎来档案工作的自动化与智能化。                                       

作者简介:中国水务投资有限公司徐琴13126655887