超融合在数字档案馆建设中的应用

(整期优先)网络出版时间:2021-06-24
/ 3

超融合在数字档案馆建设中的应用

王光

光典信息发展有限公司

摘要:随着国家数字档案馆建设的推进,以及信息化技术的发展,如何利用新理念、新技术、新方法来管理档案、挖掘档案、利用档案,成为目前档案领域研究的一个方向。本文将根据档案业务的特点,将目前先进成熟的技术引入档案领域,逐步改变传统的档案管理模式并向档案的全电子化、综合性全方位集中式的现代管理模式发展,通过先进的技术手段使档案的价值和使用价值得到最充分的体现,由此保持和提升档案部门的社会地位和价值。

关键词:超融合、虚拟化、分布式、小文件、海量数据

一、建设背景

长期以来,受资金和技术的限制,综合档案馆档案信息化的发展停滞不前。2016年4月,国家档案局印发《全国档案事业发展“十三五”规划纲要》,规划纲要要求加大数字档案馆建设力度,采用先进的信息化技术,提高档案馆信息化和服务管理水平,加快提升电子档案管理水平,加快档案信息资源共享服务平台建设。这就对各档案局(馆)加强数字档案馆建设,进一步丰富馆藏并对档案资源共享及利用服务提出新的要求。

同时,信息化技术的发展,尤其是云计算、大数据等技术的不断完善和运用,给档案信息化的发展和提升提供了前所未有的契机,各地综合档案馆必须抓住机会,结合档案业务自身的特点,选择适合档案业务的信息化技术,为档案事业赋能,努力通过档案信息化融入整个社会信息化的进程,逐步改变传统的档案管理模式并向档案的全电子化、多用户超远程、综合性全方位集中式的现代管理模式发展,通过最先进的技术手段使档案的价值和使用价值得到最充分的体现,由此保持和提升档案部门的社会地位和价值。

十三五以来,各地均在建设档案馆新馆,各地档案馆拟借新馆建设的契机进行档案信息化升级,必须站在智慧城市的高度考虑档案馆的信息化建设工作,各级、各类档案部门应积极行动,从完善基础设施入手,以档案数字资源体系的建设、整合、共享为基础提高多种形式的信息化服务能力,提高档案信息化管理水平和文化资源利用水平,在提高城市竞争力和提升城市文化软实力方面发挥作用,构筑智慧化、网络化的服务平台,形成完善的档案应用体系,快捷方便地向社会各方提供所需的档案信息资源服务。

二、档案数据特点

综合档案馆的应用和数据有自身的特点,与其他行业有所区别。

首先,档案馆软件系统比较多。既有档案资源管理、音视频多媒体档案管理等业务应用系统,也有全文检索、统计分析等业务工具系统,还有安全管理系统、网络管理系统等管理工具系统;

其次,档案业务挖掘潜力大。档案馆信息化发展相对比较滞后,随着信息化技术的发展,以及十三五以后数字档案馆建设的大力推进,今后对档案系统的建设将逐步加大,对档案数据挖掘以及新技术的应用将逐步加强,档案数字化、信息化的力度将逐步提升;

第三,档案馆文件较小,但数据量庞大。一般档案馆数据量都是几十TB起步,多则达到大几百TB海量数据,数据量庞大,但每个文件又比较小,这就造成访问这些海量数据将消耗更大的资源,如何存储和利用这些数据,对传统的存储系统是个考验;同时,档案数据区别于其他办公数据,档案数据都是价值比较高的数据,需要确保数据的可靠性和稳定性;

最后,档案馆静态数据较多。数据访问不像银行、图书馆等行业那样频繁,有一部分数据为活跃数据,即热数据,其他大部分数据为不常被访问的数据,即温数据,甚至冷数据。

三、传统解决方案

档案馆信息化传统设计方案,是每一个应用系统部署在一台服务器上,数据存储系统采用SAN或NAS方式,在虚拟化和分布式存储技术成熟之前,没有太多的可选择方案,基本都采用这种解决方案。

这种方式的优点是,每台服务器独立,相互不受影响,数据保存在独立的存储设备上,不受应用系统的干扰。

但这种解决方案也有明显的不足,一是每个应用部署在一台服务器上,造成服务器资源浪费;二是针对档案文件小、规模大的特点,采用传统的存储在出口性能、处理性能方面都存在瓶颈,随着数据量的增加,性能会逐渐降低;三是面对今后应用的增加,无法做到弹性扩展,必须增加服务器数量,造成资金投入的增加。

如果按照六个应用系统部署,则传统的部署方式如下:

60d449b3e0969_html_e52fc375c8d6a11e.png

综上,传统的解决方案结构成熟,但不利于弹性扩展。

四、超融合解决方案

随着虚拟化技术成熟,以及分布式存储技术的应用,新技术发展为档案信息化建设带来更多的选择方案。

针对档案行业应用和数据的特点,可采用超融合技术解决档案应用和数据存储的问题。超融合实质上是一种将云计算和云存储相融合的一种技术或一种体系,甚至可以融合更多的功能,如安全等,本文将重点探讨超融合的特点,以及能为档案业务信息化带来什么变化。

60d449b3e0969_html_e607af758b1dad37.png

4.1计算资源池设计

档案应用运行离不开服务器,服务器是超融合云计算平台的核心,每个运行在独立服务器上的操作系统被转移到虚拟机中,物理服务器可以构建多个虚拟机,虚拟机比物理机配置更灵活。通过对多台物理机的管理,形成统一的资源池。这个服务器资源池上通过安装虚拟化软件,使得其计算资源能以一种云主机的方式被不同的应用和不同用户使用。

传统的应用分别搭建在不同的物理服务器上,各物理服务器资源,如CPU、内存、硬盘等无法弹性共享,造成资源浪费。而虚拟化平台或云平台则是搭建在一组物理服务器上,通过该平台,虚拟出多台服务器,并为每台虚拟服务器分配所需的CPU、内存、存储空间等资源,各虚拟服务器均共享这些物理资源,通过虚拟平台或云平台统一调度、弹性分配,应用系统具体使用了哪些硬件资源,对于最终用户是透明的,无需关心。

档案行业应用系统较多,但使用密度、压力各不相同,因此,所需要分配的资源也不尽相同,计算虚拟化系统可以根据业务需求动态的分配cpu、内存等资源,若某应用今后业务量增加,原分配资源不足时,可以动态的增加资源,即各业务资源可以弹性扩展,可以避免传统物理服务器只能固定资源的问题。同时,今后需增加应用时,可以通过云平台动态增加虚拟机方式解决。

4.2存储资源池设计

档案行业的特点是数据量庞大、文件小,对于档案海量小文件数据的存储,是传统存储所面临的一个瓶颈。

超融合的存储系统采用存储虚拟化形成存储资源池,通过虚拟化分布式存储进行交付。不同于传统的纵向扩展(Scale-up)存储模式,分布式存储采用的是横向扩展(Scale-out)模式,这种模式下,数据分布在不同的超融合设备上,对数据的操作并行处理,提升数据处理的性能,由于是并行处理,理论上超融合设备扩展越多,处理性能越高。

60d449b3e0969_html_3a449e27fc75305c.gif

通过以上存储虚拟化逻辑架构可以看到,海量档案数据将不需要再存储在专业的SAN存储网络上,而是存储在基于常用的x86标准服务器上。超融合系统可以集中管理各物理服务器上的存储资源,形成统一的资源池,该资源池对用户而言是透明的,不需要考虑数据具体存储在那台物理服务器上,超融合系统会统一分配调度。

4.3超融合解决方案特点

1、横向、纵向线性按需扩展

档案应用系统部署在超融合上,超融合系统除了资质本身的资源弹性扩展外,还支持横向扩展(增加服务器数量)、纵向扩展(增加单台服务器的硬盘数量)等方式,只需要将新的服务器加入原来的集群就可以实现扩展。

同时,随着档案应用和数据量增加,超融合在扩展服务器后,不仅存储空间得到扩展,性能也会得到同步的扩展,即超融合系统随着服务器数量的增加,其存储容量和计算性能均会增加。

基于超融合系统可横向弹性扩展的优势,在前期设计中,可以一次规划,根据实际需要分批投入和部署,降低了前期一次性投资成本。同时,传统存储的扩容要求专业性强,对数据也有一定的风险,而超融合扩展非常简单便捷,只需要增加物理服务器,纳入超融合平台管理体系即可,降低了后期的维护成本。

2、数据保护和高可用性

传统存储系统在数据保护方面,对硬盘做raid,可以保证1块或2块硬盘故障时,不影响数据的访问,不会造成数据丢失。而超融合在数据存储方面,采用多副本或纠删码方式,其中多副本方式虽然需要硬盘较多,但安全性更高,一般会采用三副本,这样,超融合系统将一套数据保留三份,分布在不同的物理服务器和硬盘上,且会确保这三份数据的一致性,当多块硬盘故障,甚至个别物理服务器故障时,也能确保数据的安全,大大提高了数据的可靠性和可用性。在实际配置中,建议配置部分全局热备盘,当某一块磁盘或者某几块磁盘出现故障,系统可以第一时间替代故障磁盘,实现快速的磁盘自动化替换。

同时,超融合系统除了采用分布式存储和多副本技术提升数据的可靠性外,还采用计算虚拟化技术提升计算的高可用性,当某台物理服务器故障时,虚拟机可自动或手动切换到另一台服务器上,这对于档案业务的可用性而言非常重要。


五、解决方案比较

根据以上档案行业两种解决方案的描述,现对比各自的优缺点如下:

序号

名称

传统解决方案

超融合解决方案

1

部署平台

X86服务器+专业存储系统

X86服务器+超融合软件

2

服务器容错

各服务器之间无容错,若采用集群,则成本较高

服务器构成集群,容错性好

3

磁盘容错

Raid方式,只能本机磁盘容错,容错有限

副本模式,允许多块磁盘、甚至服务器容错

4

在线数据容错性

仅一份在线数据

多份在线数据

5

业务扩展性

业务增加,需新购服务器

无需增加成本,建立虚拟机即可

6

存储扩展性

Scale-up纵向扩展,需要专业存储扩容,需要专业知识

Scale-out横向扩展,增加x86服务器即可,扩展方便

7

存储扩展性能

扩容设备越多,访问性能越差

扩容设备越多,访问性能越强

8

资源利用率

应用独享服务器,造成资源浪费,资源利用率低

根据业务需要为虚拟机分配物理资源,资源利用率高

9

管理性

各设备独立管理,成本较高

超融合统一管理,方便快捷

10

计算和存储耦合性

计算设备和存储设备分离,松耦合,相互不会影响

计算和存储设备为同一设备,为紧耦合,彼此会影响


六、结论

综上,档案行业应用系统和档案数据的特点,决定了应采用高可靠性计算模式和海量可扩展的存储架构。我们认为,相对于传统的计算和存储,采用超融合计算和存储架构,可以更好的弥补传统解决方案的不足,能更好的满足档案行业信息化建设和发展的要求。


参考文献:

[1]赫斯、纽曼著,徐炯译,《虚拟化技术实战》,人民邮电出版社,2012年

[2]《云计算与虚拟化技术》,上海市工业和信息化人才继续教育办公室

[3]顾炯炯《云计算架构技术与实践》,清华大学出版社,2016年

[4]杨正洪《智慧城市——大数据、物联网和云计算之应用》,清华大学出版社,2014年

[5]黄新荣,《云环境下我国综合数字档案馆建设模式研究》,社会科学文献出版社,2019年

[6]薛四新,《档案馆现代化管理——从数字档案馆到智慧档案馆》,电子工业出版社,2019年

[7]颜详林,《数字档案馆建设概论》,南京大学出版社,2020年

4