基于Citespace的档案数字化研究

(整期优先)网络出版时间:2022-06-10
/ 3

基于 Citespace的档案数字化研究

罗敏超 金一然

(江汉大学 430056)

摘要:新时代下,数字技术正以新的模式融入我国经济、政治、文化、社会、生态文明建设等各领域,这已经成为了我国建设数字中国重要目标之一,而将大数据、云计算、信息系统等充分应用到档案数字转型、共享建设领域有助于创新公共文化服务,提升国家文化软实力。因此本文以知网作为数据来源,以“档案数字化”为主题,并将共享作为关键检索词检索相关文献,选取了2011年到2021年10年间的中文相关文献606篇,绘制知识图谱,结合文献分析法,对我国近10年来有关档案数字化理论以及实践层面的相关研究进行扩展延伸,分析前沿趋势、热点研究,为政府部门、企事业单位等构建起信息共享的桥梁。


关键词:共享,档案信息化,档案数字化


  1. 引言

如果说这个年代什么最贵,那么答案一定是信息资源。信息获取的广泛性、及时性是支撑政府决定和提供社会服务的基础。相对于个人而言,政府、企事业所掌握大量的信息资源,将信息进行归档、存储,不仅能提升本单位的工作开展的质量与效率,而且能够减轻工作人员压力。因此,档案作为一种主要的信息资源是信息数字化建设的重要工作目标。而档案资源仅在部门内部流转不能发挥资源共享的全部效用,这就要求政府以及社会各界联合起来促进档案资源与时代、社会、经济的广泛联系。优化档案检索、简化调取程序,从中提取有用的素材和资料变为共享的社会资源,有助于满足智慧化时代的社会档案需求。

目前,传统的档案数据收集、提取方式,已经不能紧跟社会相互相通的趋势,借助互联网大数据分析技术以及云计算来实现信息的传递、交换和整合有助于统筹管理档案资源开发、利用、共享。这种数据管理模式可以帮助档案管理人员完成不同的操作,实现对海量信息资源进行处理。因此解决丰富数据来源带来的档案资源的海量增长、实时数据流动带来的档案资源的流转变化、复杂的数据资源整合带来的档案数字化系统开发困难以及在运营实施阶段的网络安全等问题也成为了数字化共享建设所要达成的重要目标。

  1. 数据来源与处理

通过查阅相关文献,早在2014年已有研究者采用了citespace数据分析软件对我国档案数字化的研究热点进行了梳理,但梳理范围过于宽泛,并且没有着重突出档案数字化转型工作最重要的方面即数据共享,因此本文以中国知网(CNKI)作为收集数据的来源,然后对关键词等进行分析、对知识图谱进行处理,以此将档案数字化工作中数据共享的部分作为主要探讨内容,并梳理更新的相关内容。

  1. 研究工具与方法

本文采用美国德雷塞尔大学信息科学与技术学院陈超美博士所开发的软件--CiteSpace,该软件可根据数据分析的需求对学术文献数据进行量化,形成可视化知识图谱[1]。根据需要,图谱中会显示出关键词、聚类、聚类之间的联系以及随时间的演变。这是近年来在科学计量学、知识计量学领域中新兴的一种定量分析法。

  1. 研究现状

文献来源与发文量上的分布显示了该研究领域在宏观上的总体状况,其文献来源可代表该研究领域所关注的角度。发文量可在一定程度上代表研究领域的热度,发展规模及速度可作为一个重要的衡量指标。

如图1所示,经统计分析,文献主要的学科分布集中在档案与博物馆方面,占比52.46%,其次为计算机软件与计算机应用,占比21.47%,即包含共享成分的成果主要通过计算机等现代科技软件实现。

62a2dc7298b56_html_c2e0d3a338ef5292.png

图1 分析文献期刊来源的分布


如图2所示,经统计分析,“档案数字化+共享”类文章,在2011年至2021年间一直处于稳步增长的状态,年均发表文章40篇左右;2018年至2019年属于快速发展阶段,几乎达到年均增长100篇的数量;2020年略波动起伏,直至2021年稳步回升,发文量在93篇左右。

62a2dc7298b56_html_4729555170c37ba1.png
图2 分析文献数量的年度分布


  1. 基于 Citespace 档案数字化的知识图谱分析

5.1关键词共现、聚类分析

关键词是一篇文献主题的凝练与概括,通过关键词能够快速把握文献的中心思想。在citespace软件中,频率和中心度是衡量关键词重要指标。频率越高,标签越大; 中心度值越大,节点越大。本文选定关键词为网络节点类型,时间跨度设置为2011-2021 年,从绘制的档案数字化研究关键词共现知识图谱可见,档案数字化建设是实现数字资源共享的前提。

62a2dc7298b56_html_52f39d3030dca903.png
关键词共现分析中提取聚类命名术语可得到可视化的关键词聚类视图(如图3)。

62a2dc7298b56_html_66ced393102899d8.png
3 关键词聚类分析可视化图谱

结合相关文献进行深挖发现,管理占据一个突出地位,这表明了建立数字化共享服务需要完善统一的组织体系来对档案管理网络化构建以及资源共享进行规划与协调。强调要加强顶层设计、实现区域发展平衡,这可依托政府现有的对接政务的已有资源来构建格式规范、数据集中、可共享的数字资源库,以突破时空和地域界限,达到信息共享的目的。因此如何充分利用现有数字化档案资源供个人使用,行业内外部开发也是目前的热点,此研究有利于达成双向的互动和需求的满足。

5.2关键词时线图分析

本文利用 CiteSpace进行时线可视化分析以探讨我国信息共享背景下档案数字化研究领域的前沿。依托聚类生成的结果截取前7个影响较大的聚类,其余3类聚类影响力小,本文暂不采用,由此生成的关键词共现时线图(如图4)。

62a2dc7298b56_html_9743619a4a3a4e4e.png
4 档案数字化关键词共现时线图

结合相关文献分析可知,该领域的研究热点与时俱进,不断更新。早在2008年之前,我国关于档案的相关研究主要是以档案工作为主,将其关注点放在档案的管理规范、图书档案的利用,后来档案馆开始追求新的管理模式和利用模式,将其档案进行综合,推行档案共享服务、拓宽档案的存储空间,以此来达到优越性的档案实施和管理模式,这也体现了档案管理的演进与发展。2010 年进入一个新阶段出现了档案数字化趋势。在这一时期,数字化工作统筹协调,遵循“资源建设,格式规范,整体协调,安全落实,经费保障”等原则。对高校、民生、医疗档案等相对较早时期的各部门档案在档案应用性方面进行研究,显示了将传统档案慢慢转变到档案服务的演变过程,重点考究有哪些部门可以将其转化,慢慢的随着科技的发展开始出现医疗档案的创新研究。在2016年以后,开始强调共建共享,共享中心等以数据和资源形式开展数字化工作,这也表明了我国档案工作在大数据时代下不断推陈出新,也为后续研究共建共享平台下的档案数字化提供了方向。

5.3关键词突现分析

CiteSpace软件导出的数据统计表中许多关键词早在2011年的时候就已经存在,但策略、文书档案、互联网+、措施、信息技术等在2019年以后才凸显出来,其突变值分别为1.59、1.68、1.67、1.4、1.25。而档案资源与档案服务等相关问题是2021年乃至往后的档案数字化研究的最前沿,其突变值分别1.84、1.68。

62a2dc7298b56_html_6a9cab5c1e1486ca.png
5 档案数字化关键词突现分析

突现词的分析结果表明,档案数字化建设其目标之一就是要能够有效、合理地开发档案的信息资源,绝不能轻视其内容的建设。目前研究表明,档案信息的建设滞后于信息化的总体发展。数据渠道来源广泛、个体日常产生的信息所形成的小型档案库给信息收集工作增添了难度,因此如何做到大浪淘金,筛选出有利用价值的精准信息有待研究者考量。也有研究者表明在技术上可以通过档案云实现数据服务,在制度上采取督导立档单位建立健全文件材料归档范围、现场指导、执法检查相结合等方式,对各类档案做到“应收尽收、应归尽归”。另外大数据时代下倡导的个性化共享服务、私人定制服务等,需要获取个人信息,因此个人隐私安全的保护也是当下最值得探讨的问题。2020年浙江省档案馆在归档系统数据流转的关键环节建立无钥签名可信认证系统,保证其不可抵赖的同时验证了数据是否被篡改,解除一定的信息上的安全隐患。最后,建立健全安全管理制度、落实安全管理责任制是档案数字化安全的政策前提,强化数字化场所监管是档案数字化安全的环境保障。

  1. 研究结论

办公自动化、网络信息共享等技术在政府和企事业单位的普遍应用,电子政务、数字城市等工程逐步实施是目前现在档案数字化领域所研究的热点,是加快档案现代化管理的迫切要求,也符合社会发展的实际需要。无论是政府、企事业、民生这类收集能全民信息的档案,还是教育、城建、医疗这类能促进本行业发展的档案,在推进档案数字化工作时都强调要分别在技术、系统、人员、意识等方面做出突破。在技术方面,如何建立完备的信息云数据库、建立智能的数据处理优化系统、建立完整的终端应用体系来实现技术上的突破是有待解决的问题。在系统方面,建立集中统一的数字档案系统以及统一标准的技术路线是建立数字化管理平台所必须的考虑的。各机构部门也要突破传统的媒介管理体系、地域局限的限制,形成档案数字化成果之间的关联与共享。然而提升档案相关人员的数字化化意识也是档案数字化建设的目标之一,在专业档案人员掌握丰富的档案管理工作理论与实践的基础之上,提升其信息技术水平,将“软知识”和“硬数据”相结合,变成复合型技术人才。这样既可以为政府 和社会公众提供方便快捷高效的服务,又可以通过社会力量的查询和利用,倒逼档案部门进一步统计、分析、挖掘与整合数据,满足各种用户对共享的档案信息的使用需求。

  1. 参考文献

[1]滕金润,蔡云. 基于CiteSpace的国内汽车热管理文献可视化分析[C]//.四川省第十五届汽车学术年会论文集.,2021:208-213.DOI:10.26914/c.cnkihy.2021.023443.

[2]李明华.中国的数字档案资源建设[J].中国档案,2016(10):14-15.

[3]邵永斌.基于CiteSpace Ⅴ的人事档案系统与高校档案数字化可视分析研究[J].兰台世界,2019(07):51-54.

[4]谢瑶瑶,乔硕功,向禹.基于CITESPACE的档案工作(2008~2017)研究热点可视化分析[J].资源信息与工程,2018,33(01):188-191.

[5]张博,康奥.国内地质公园研究演化趋势与热点分析——基于知识图谱视角[J].地质论评,2021,67(02):557-569.DOI:10.16509/j.georeview.2021.021.