医院云灾备系统建设和应急演练方案之探讨

(整期优先)网络出版时间:2024-01-03
/ 2

医院云灾备系统建设和应急演练方案之探讨

杨骁俊1 ,景辉2  ,何逾骏3

1. 上海市浦东新区人民医院  上海市   201299    2.  中国移动通信集团上海有限公司 上海市  200060     3. 中国移动通信集团上海有限公司  上海市  200060

【摘要】 医院信息系统是医院运营的核心系统,一旦系统突发故障而不能快速恢复时将严重影响医院救治工作。为解决医院信息系统在突发系统灾难时系统无法快速恢复和核心业务数据丢失等问题,本文通过部署本地和异地云灾备平台,应用qcow2虚拟机快照、LVM逻辑卷、加密系统等技术实现核心业务应用级容灾服务,并通过管理手段定期对医院信息系统灾难恢复开展应急演练,提高相关部门和人员快速响应及资源调配等的能力,确保医院信息系统快速恢复。

【关键词】 信息系统、医院、云灾备、数据安全

1.前言

我国医院已经普遍建立了医院管理及临床管理信息化系统(如HIS、CIS、LIS、PACS、RIS等),功能已涵盖近200子系统模块,部分大型医院正逐步开展集成平台、临床数据中心(CDR)、智慧医院等系统建设。目前医院信息系统整个系统架构体系非常繁杂,系统部署大多集中在本地,在安全运营方面存在多种隐患:

(1)数据安全性低。大部分的服务器采用单服务器运行模式,本身数据全部存储到本地服务器中,且服务器未采取相应的安全防护措施,无法保证数据的安全性。

(2)硬件故障隐患。计算机硬件设备作为对外业务的主要搭载设备,计算机设备属于硬件产品,不可避免的会出现故障问题,一旦出现硬件故障问题,将会导致业务无法运行,数据丢失等隐患。

(3)数据丢失隐患。随着信息化的发展,越来越多的业务系统上线,而随之而来的是相应的业务操作不熟练问题对数据产生巨大风险,因不规范的使用方法将会造成业务数据被误操作、误删除。甚至可能出现相应的恶意删除等事故的发生。

(4)业务中断隐患。现有的业务系统中均没有设立相应的应急故障机制,如果一旦业务损坏或故障,将会导致某一种业务无法对外业务,甚至可能导致整个信息系统崩溃[8]。

(5)抗灾业务隐患。 随着业务的集中,不可避免会遭遇不可抗力灾难的发生,当本地机房出现火灾、停电等不可预知事故时,无法有效的进行相应防护措施及应急措施。

上述问题可以通过对医院信息系统建设灾备系统和管理上建立应急演练方案来加以解决,包括容灾恢复、备份安全性、同步备份、业务恢复、容灾/应急接管、容灾演练、安全认证等方面内容。

2.医院云灾备系统建设方案

医院灾备系统以保护核心业务系统连续性及数据一致性,减少因数据丢失、业务中断而引发的医疗纠纷[5]为目标。

2.1医院云灾备系统架构

医院云灾备机房建设部署一套应急保障平台提供容灾备份功能,系统部署在备份服务器上,并接入机房网络环境,用于记录所有作业信息,修改配置文件,提供图形化操作界面,实现备份一体机、客户端、备份介质的集中统一管理,对备份作业进行管理操作;备份客户端安装在每一台需要备份的服务器上,与备份服务器建立连接。系统架构中引入qcow2以及LVM逻辑卷技术。qcow2虚拟机快照是指在使用qcow2格式的虚拟机中,通过创建快照来保存虚拟机的状态。快照可以在虚拟机运行时创建,用于备份虚拟机的状态,以便在出现故障或错误时快速恢复虚拟机的状态。LVM逻辑卷是指在Linux系统中,使用LVM(逻辑卷管理)技术来创建逻辑卷,将多个物理卷组合成一个或多个逻辑卷。逻辑卷的大小可以随时动态调整,可以实现数据的高可用和快速备份。

针对医院的核心业务将 HIS 系统,EMR 系统,LIS 系统,RIS 系统,在本地做业务连续性保障。应急保障平台提供了业务的连续性和数据的完整性保障,一旦这些业务出现中断,可以立即接管,保障核心业务系统的连续性[5]。对原有生产环境施行实时数据同步备份,实现对整个信息化平台数据安全的保障。当核心系统的设备发生故障,或数据发生错误丢失时,应急平台上的快照副本会在几分钟左右自动启动,对原来业务系统实行接管[12];以此保障业务系统的服务,降低业务中断时间及数据丢失风险。

灾备平台对生产中心施行数据的完整同步备份,实现对整个信息化平台数据安全的保障。在本地应用系统中安装灾备代理。统一的灾备平台将自动识别到已安装客户端的应用系统。应用系统的系统盘和数据盘将通过设定的备份策略(磁盘卷级CDP实时备份技术),可实现I/O级别的细颗粒度实时备份,将数据传输到灾平台中(包含生产机系统、网络配置等),将备份窗口、数据丢失降到最低。还可以通过挂载演练等功能,找回任意时间点的历史数据,解决数据逻辑错误,对信息系统进行多重保护。

图 1 医院云灾备系统架构图

2.2 灾备系统数据备份

基于磁盘底层的实时CDP(连续数据保护)备份技术直接监测磁盘I/O层,将HIS、EMR、LIS业务主机(操作系统/应用程序/数据库)都一体化整机实时备份,备份文件格式为虚拟机映像文件。在保障平台会周期做自动快照版本。

若单个或多个业务主机发生错误的时候都可以直接通过调用映像虚拟系统进行单个或多个业务系统同时接管的工作,灾备平台上不需要预先设置所谓“虚拟机IP”,而是对原设备完整镜像包括IP地址信息,所以接管机的配置与源业务系统的配置完全相同。另外,灾备平台可以对任意快照点或者当前同步点进行虚拟机的接管工作,在系统发生逻辑错误时,判断逻辑故障发生时间,从未发生错误快照点启动应用

图 2 医院信息系统数据备份示意图

2.3 灾备系统业务切换

当本地系统发生灾难性故障或数据发生错误丢失时,对于部分RTO要求较高的业务系统,可迅速切换至异地灾备中心平台,快照副本组会在5分钟内完全启动,对原来业务系统实行接管,以此保障业务系统的服务,降低业务中断时间及数据丢失风险。可在分钟级可启动灾备切换流程,最快10分钟内可实现关键功能模块的切换操作。

图 3灾备系统业务切换示意图

3. 实际应用效果

本次灾备方案技术采用数据块级实时复制技术备份(os+app+data)到灾备平台。实时复制技术基于磁盘过滤驱动,实时监控每个磁盘的读写I/O,同时记录下来每个写 I/O 的磁盘 MAP 分布图,在每次同步时间里把相应的物理磁盘变化量同步到虚拟磁盘上,首次全量备份,软件会依据网络健康状态采用智能算法动态调整,对原业务服务器CPU、内存资源占用少,对原业务服务器无明显影响,只执行读取操作(实时复制过程中占用 CPU资源不到 1%,内存资源不超过 200Mb)。同时,为防止对整个生产网络的影响,仍建议进行备份限速。(设定为内网带宽最大值的50%执行)。以下为内网千兆网络,数据备份测试情况如下:

源端500G磁盘,已使用空间:59.7G。开始备份时间:13:47 结束时间:14:05,用时:18分钟。平均速度为60m/s。实际备份产生数据为:61.94G,CPU和内存使用增长率1%-5%之间波动。

源端1700G磁盘,已使用空间:837.7G。开始备份时间:14:09 结束时间:17:50,用时:3h41min 平均速度:64m/s。实际备份产生数据为:1.48T,CPU和内存使用增长率1%-5%之间波动。

专线带宽的估算方法:专线带宽500M主要用于容灾机房之间的数据传输,根据带宽数据传输的理论值,建议同步间隔设定为3分钟,具体数值根据实际业务动态调整。

通过制定应急演练验证了在机房部署云灾备系统,实现对核心业务系统与重要数据、虚拟化平台等提供统一管理,获得业务的易扩展性、平台数据的一致性、业务数据即时同步的可靠性,以及资源部署周期短等优势,面向核心业务进行运营支撑,当业务系统面临服务器、存储单点故障及系统崩溃等情况时,可以10分钟内恢复业务系统,对原业务系统实行接管,以此保障业务系统的服务,降低业务中断时间及数据丢失风险,用更低的成本解决了传统容灾、高可用无法解决的逻辑性错误(木马、病毒)问题,与生产环境相辅相成。同时异地容灾机房也可以作为快速容灾演练平台,进行业务验证、补丁升级、仿真测试等使用。

4.总结

本文提出了通过建设部署本地和异地云灾备平台,应用qcow2虚拟机快照、LVM逻辑卷、加密系统等技术实现核心业务应用级容灾服务,解决了医院信息系统发生系统灾难时系统快速恢复及核心业务数据不丢失等问题。本文还提出了灾备应急演练方案,通过定期应急演练的手段提高相关部门和人员快速响应及资源调配等的能力,确保医院安全运营。根据本文提出的方法在某人民医院已建成本地和异地云灾备平台,实际应用效果良好。

【参考文献】:

[1]徐岩,服务器虚拟化技术在医疗业务信息化的应用研究[J].网络安全技术与应用,2022(1):115-117

[2]郭辉,李昂,尹赛赛,曹新志.关于影像科PACS/RIS系统存储空间不足的探讨[J].中国医疗设备,2015,30(09):93-95

[3]施杨骏,浅谈PACS医学影像文件存储的应用[J].数字化用户,2017,29:256

[4]艾渊,医院机房信息化改造实践研究[J].无线互联科技,2019(9),18:113-114

[5]孙巧燕,医院容灾机房中容灾备份系统的解决方案[J].计算机安全技,2013,14:129-130

[6]陈捷,冷锴,刘云,医院新大楼数据中心机房的设计思考与应用研究[J].江苏卫生事业管理,2013(06),24:175-177

[7]江传,医院信息中心机房安全保障的途径[J].中国新通信,2019,21:131

[8]朱朝阳,医院云机房网络的建设及维护[J].医疗装备,2019(03):77