磁盘阵列在地震台网数据存储中的运用

(整期优先)网络出版时间:2023-04-26
/ 3

磁盘阵列在地震台网数据存储中的运用

陈东

(福建省地震局  福建  福州  350003)

摘要  对于地震台网来说,地震数据作为地震系统最重要的核心资源,对地球深部构造、地球动力学、地壳运动等研究提供了坚实的基础依据。因此地震数据的存储和安全性极为重要,一旦被破坏和丢失,就会给地震研究工作者造成重大的影响。地震数据的安全存储离不开数据的安全备份,本文重点论述地震数据存储的设备安全与应用安全。

关键词:地震数据;安全存储;磁盘阵列;存储方案;

0引言

  从1999年起,福建地震局数字化地震台网运行以来,从原先的22个地震台站到现在国家预警工程基准站、基本站和一般站的建设完工,共布置了1113个地震观测台,每天的地震数据量达大约30GB,一年汇集的数据量达到11TB左右。目前福建台网存储管理的地震波形数据已经超过了30TB。

如此海量的地震数据,一旦被破坏或者丢失对于地震台网部门来说都是无法承担的影响,而行之有效的安全存储是一件迫在眉睫的任务。普通的存储介质如光盘、硬盘读写速度慢、容量小,存储环境无法做到无尘要求,已经无法承担起海量地震波形数据的存储应用。也有人提出使用固态硬盘作为高速的存储介质,但固态硬盘的容量很难做大,并且固态硬盘的价格也很难让人接受。这些线下的存储介质使用了一定年限后,由于磁性消失、硬件设备的老化,出现故障几率会有所增加,如其中一块数据硬盘出现故障无法运行,若未能及时发现问题,硬盘荷载加重,极易出现硬盘崩盘现象。在上述方法均不能满足要求的情况下,越来越多的目光转向了磁盘阵列技术的研究。磁盘阵列不但大容量、访问数据快、而且24小时不间断通电的线上存储介质极大的提高地震数据的安全性。

1. 地震数据存储技术的发展和目前状况

地震数据存储是地震工作中一项重要的任务,对于地震数据的存储主要经历了以下3个阶段:

(1)纸质存储技术:所存储的地震数据通过模拟记录在图纸上、不能共享和涂改,对于纸的质量要求比较高,而且对于温度环境要求也很严格,因此在保存上比较困难。对于查阅、外借等都带来了很大的不便。

(2)盒式磁带存储技术:盒式存储技术的出现解决了高分辨、超多道大面积的三维地震数据采集的需要,但随着地震数据采集总量的不断递增,盒式磁带存储技术的存储速度还是显得有些滞后,不能满足实时记录的要求。而且还需要专门的磁带机才能记录和读取地震数据。在价格方面比较贵。

(3)硬盘存储技术:与盒式磁带存储技术相比,硬盘存储技术操作不仅简单方便,价格便宜,而且容量更大,适合现在日益增长的地震观测数据的运用。但是硬盘产品都有使用寿命,如果硬盘长年不停机的工作,还必须读写要快速,日积月累的耗损很难免出现一些故障。

为了防止日常使用中硬盘故障产生数据丢失而开发出一种技术把数据和检验值分布在一组磁盘中(RAID),当有硬盘损坏情况下,丢失的数据可以通过在其它硬盘上的数据校验值进行完整恢复。不仅如此,磁盘阵列还具有扩展存储容量、提高性能和可靠性的优势。

2.存储设备安全

2.1 磁盘阵列(RAID)技术

磁盘阵列(RAID)技术在现阶段信息存储解决方案中是利用技术优势将多个独立存在的硬盘进行重组成一个信息容量庞大的独立工作硬盘组,以此扩大自身冗余率,提高信息储存效率,保证信息存储的安全性,从而满足使用需求。通过将数据进行重组和分配放置在多个独立的硬盘上,能够为数据的输入和输出提供平衡性,从而改良操作性能,存储空间有所增大。磁盘阵列(RAID)技术最早于 1988 年加利福尼亚大学伯克利分校的《A Case for Redundant Arrays of InexpensiveDisks》所提出,并且该文章将磁盘阵列(RAID)技术进行分级。磁盘阵列(RAID)技术利用自身冗余数据的功能提高了数据储存的可靠性,并且增强了 I/O 的并行性,从而提高了数据安全储存性和数据储存高效性。在数据信息存储方面使用磁盘阵列(RAID)技术,需要根据信息存储的实际情况、硬件设备的实际条件等选择不同的技术级别,不同的技术级别的数据冗余率、数据容错能力会有所不同。存储技术也在不断发展和完善,地震数据存储技术也得到新的提高。

2.2.磁盘阵列(RAID)技术原理

根据磁盘阵列(RAID)技术的不断发展,磁盘阵列技术已经拥有多个基本的技术级别,大致可分为 RAID0、1、2、3、4、5、以及派生的RAID10、RAID30、RAID50。目前业界公认的标准是RAID0-RAID5。RAID0 没有安全的保障,但其速度最快,适用于高速 I/O 的系统。 RAID1 技术采用镜象结构技术,以此有效提高系统的数据容错能力,并且镜象结构技术支持“热替换”,在不断电的情况下能够对系统故障后磁盘数据进行更换,实现数据恢复,所以RAID1 适用于需要安全又要兼顾速度的系统。RAID2 和 RAID3在原来的磁盘阵列技术基础之上加入了海明纠错码,及自动监测并纠正的线性交错码,以此提高了数据验证的有效性适用于大型语音、视频等处理。RAID4 运用了特定磁盘以储存数据信息,但是相比于RAID3,RAID4 的数据信息储存单位是数据块,在 RAID4 中只要保证数据块的完整,就能够实现数据恢复等操作。同样,虽然 RAID4 功能较为庞大,速度也较快,但是操作与 RAID3 相比也更为复杂。RAID5是目前应用最广泛的RAID技术,它采用块分割将奇偶校验块分布在多磁盘驱动器上,如RAID5用一块磁盘来为4块磁盘提供数据冗余,那就意味着用5块磁盘来存储4块磁盘容量的数据并为那些数据提供完全备份。RAID5具有数据安全、读写速度快、空间利用率高等特点。RAID010通过 RAID 技术分别抓取四块系统磁盘中的两个信息源,并将其组成两个虚拟化磁盘,从而对 RAID1 技术进行控制,将两个虚拟磁盘组成一个虚拟盘,并且外部服务器只对最终形成的一个虚拟磁盘可见。RAID30是创建二个RAID3再配置成RAID0。RAID50是RAID5和RAID0的结合。

2.3磁盘阵列在地震台网数据存储中的优势

福建地震台网从1999年开始归档测震连续波形到2022年,共刻录光盘4587张,硬盘存储13块(图1所示)。由于这些离线数据的存储环境无法做到无尘、静电的状态,导致在2017年由国家台网中心对各省地震台网进行历史地震观测数据进行抽样检查中,发现不少数据光盘表面磨损和硬盘存储的数据无法读写的状况。而且大量的光盘和硬盘存储介质占用不少的空间,数据读写速度慢,使用不方便,利用率比较低。因此将这些历史地震观测数据进行备份的时候我们选用了磁盘阵列。RAID的使用为存储系统或服务器带来很多好处,其中提高安全性,自动备份,提升传输速率和提供冗余容错备份功能是突出的特点。

图1 历史测震连续波形数据量

3.RAID5存储数据的安全方案

对于地震台网来说,每天都有大量的地震研究者通过线上访问和拷贝历史观测数据,因此地震台网数据一旦被病毒感染或者服务器断电造成的数据丢失,造成的后果非常严重。基于数据使用的需求,我们把历史地震观测数据以及现有的数据文件存储备份在磁盘阵列中,通过网络共享的方式满足各个阶层研究使用,采用RAID5技术方案来存储备份数据在RAID技术方案中性价比最高。

3.1 RAID5的数据结构的安全性

RAID5的数据安全性较其他RAID系列的磁盘阵列要高很多,当阵列中的一块物理磁盘出现障时,允许在不停机的情况下对磁盘进行热插拔更换,保证应用系统的持续运行。RAID5的高安全可靠性主要来自两个技术要点,即冗余数据应用和奇偶校验算法。冗余数据的生成有多种算法,RAID5采用的是奇偶校验算法。下面以4个磁盘组成的RAID5为例来说明利用奇偶校验算法生成冗余数据原理和过程,并介绍RAID5数据安全可靠性的原因。如图1所示,假设在这个由四块磁盘做成的一个逻辑磁盘上12个连续存放的数据块,这些数据块以0,l,⋯⋯,11命名。

    1组成RAID54个磁盘上的12个数据块的排列

图中每块磁盘由上往分为4层,每层包括3个数据块及一个它们的数据奇偶校验块。数据奇偶校验块中的每个字节是同层中的3个数据块块中相同位置的3个字节的奇偶校验值。例如,这3个数据块其中相同位置的一个字节的分别为01000110、01101ll0、01000110,那么校验数据块中的相应字节的值就为110101ll。

通过运算我们可以发现,这四个数中任意3个的奇偶校验运算值等于第四个数,因此,当这4个数中的任意一个被破坏了,还可以利用求出其他3个数的奇偶校验运算值来恢复。同理,同一数据层的4个数据块之间、组成RAID5的4个物理硬盘之间都存在这种数值关系,当其中任意一个硬盘损坏后,都能通过对其他3个硬盘上的数据进行奇偶校验运算进行数据恢复。以上就是RAID5的常的数据结构基础。

3.2 RAID5技术的存储优势

当使用磁盘阵列存储数据时,不仅需要安全又要兼顾速度的同时,还要考虑存储介质的价格。数据每天都在不停的增加,考虑到未来的存储规模及花费的费用,因此多方考虑的情况下,RAID5是性价比最高的一种存储方式。对比其他RAID存储方案如下:

方案

磁盘数量

费用

可用磁盘空间

读速度

是否冗余

可允许几块硬盘损坏

备注

Raid0

8

24T

2.23G/S

0

Raid1

2

3T

1.55G/S

1

2个一组,共8组

Raid5

8

21T

2.1G/S

1

Raid10

8

12T

1.8G/S

先RAID1对八块物理磁盘进行冗余,形成4块虚拟磁盘进行RAID0加速

Raid50

8

12T

1.9G/S

2(2组中的1+1)

1到4做到RAID5,5到8做到RAID5,再把两个RAID5做到RAID0。

表1  RAID方案对比表

比较 RAID0、RAID1、RAID5 、RAID10和RAID50之间的优缺点得出,RAID5不仅读写速度快,而且费用便宜。总体表现相对来说是优胜一筹,所以,我们用RAID5来解决地震数据的存储备份问题。

4. 现行地震台网数据存储备份现状

福建地震台网采用的是RAID5技术级别由6块机械硬盘总容量52T的磁盘阵列来存储备份地震观测数据,采用内插式磁盘阵列卡,接入IBM服务器采用Windows 2003 Server多用户操作系统,使用的是NTFS文件系统,不同的用户可以对计算机资源有不同的权限,文件传输速率是65MB/秒,服务器放置在内网中,隔绝外网的病毒传播。随着科学技术的不断进步,现在涌现出大容量、读写速度快、缓存容量高、价格低的企业级服务器硬盘,这些高性能的硬盘组成的磁盘阵列将成为未来地震观测数据优先存储备份的方案。

5.结论

本文重点论述地震数据存储的安全方案。地震数据的安全存储来自设备安全和应用安全两个方面。磁盘阵列技术特点:安全性高、读写速度快、数据冗余性强、可以不间断24小时在线的特点,是数据存储备份的良好策略也是成为保障数据应用安全的唯一手段;地震数据的备份安全随着科技的发展不断的涌现出新的存储技术手段。我们应该根据实际情况以合理的花费建立一个良好的地震数据存储体系,这个存储体系应该是安全、快捷高效、费用低的。磁盘阵列作为数据存储备份的方式,将成为未来的存储主流设备。在今后的存储备份中被广泛的应用。

参考文献

  1. 郭燕平,郑重,邹立晔,杨一飞.地震数据存储的设备安全与应用安全[J]地震地磁观测与研究,2006年8月第27卷 第4期
  2. 黄卫平.磁盘阵列(RAID)在医院网络信息系统中存储解决方案探讨[J]中国医疗器械杂志,2003年第27卷 第3期
  3. 王赟.磁盘阵列的数据安全与数据修复分析[J] 数字技术与应用,2012年第1期
  4. 居万军、傅元、单旭彪.基于RAID磁盘阵列的安全备份设计[J]信息系统工程,2018年第9期
  5. 闫攀. SATA硬盘阵列的研究与实现[J]2010年硕士论文