综合信息网云平台双活中心架构研究

/ 3

综合信息网云平台双活中心架构研究

康勇 程涛 朱启跃

中国铁路济南局集团有限公司信息技术所 ,250001

针对综合信息网重要信息系统部署环境存在的安全隐患进行分析,通过在两个机房之间构建双活中心架构可行性进行设计,研究双活数据中心接入层、应用层、数据层等云平台安全部署,满足业务系统在两个机房应急处置恢复时间目标(RTO)和恢复点目标(RPO)要求,提升运输调度管理系统、货运票据电子化等重要系统稳定性和应急处置能力。

关键词:双活中心;RTO;RPO;应急处置

 综合信息网作为国铁集团统建系统,承载着运输调度管理、货运票据电子化、综合办公等重要信息系统,为集团公司运输组织、生产指挥、业务办理等提供技术支撑,综合信息网云平台安全性、健壮性和稳定性直接决定着重要信息系统能否稳定运行,经过对路内数据中心云平台部署情况进行调研了解,深入分析云平台安全部署存在的问题。

结合国铁集团新发布的《铁路信息系统双活架构设计指南(试行)》(信技研建[2022]10号)技术要求(图1综合信息网云平台双活应用部署架构示意图),研究通过两个信息机房建立双活数据中心云平台所涉及的技术要点,针对接入层、应用层、数据层发生故障后,对系统的影响、切换策略、恢复业务时间进行研究,满足业务系统恢复时间目标(RTO)和恢复点目标(RPO)要求,提升运输调度管理系统、货运票据电子化等重要系统应急处置能力,确保不会发生四级及以上信息系统故障。

(图1:综合信息网云平台双活应用部署架构示意图)

  1. 问题分析

1.1基础设施安全存在问题

2021年郑州突发暴雨导致郑州铁路局信息机房断电的“黑天鹅事件”发生,因此相关信息系统长时间停止运行,给运输生产秩序带来较大影响,单机房部署信息系统严重依赖供配电等基础设施安全,由此所带来的安全隐患凸显。

1.2接入层安全存在问题

受IP地址访问限制应用跨网段迁移难度较大,应用采用直接的IP地址访问方式存在网络架构暴露易受外部攻击问题,单实例应用难以承载高并发访问需求,应用热冗余是运维环节需要考虑的一项重要因素,由于外部环境因素中各类施工不规范所导致的挖断光缆事件屡有发生,以上问题迫切需要在数据中心云平台建设过程中考虑接入层的稳定性、容错能力、应急处置等安全问题。

1.3应用层安全存在问题

应用升级过程中应用包部署异常,非正常退出导致垃圾数据及锁日志导致应用无法正常启动,应用编写不规范导致SQL注入、缓存溢出等安全风险,大量用户频繁访问给应用session会话数提出更高的要求,集群时钟不同步导致的应用异常。

1.4 数据层安全

用户对数据正常访问、历史数据存储时限要求和既有系统存储容量不足之间的矛盾突出,ftp文件传输、exchange邮件系统存在数据传输过程中口令及数据明文传输问题,公民个人信息、生产数据等敏感数据安全存储需求迫切,既有应用采用数据库之间数据链路直接访问问题,如何校验备份数据是否可用问题突出。

  1. 云平台双活中心架构设计

2.1接入层设计

2.1.1网络分区管理。一、二中心分别部署2套主备核心防火墙,将综合信息网划分为外部服务网、内部服务网、安全生产网、国铁集团方向以及运输站段方向5个独立区域,各区域之间创建不同的运维规则策略进行严格防护。

2.1.2机房分区管理。针对一、二中心内根据网段Vlan划分为应用接入区、数据库接入区、运行维护区以及终端接入区。

2.1.3带外管理网络部署。针对机房内小型机、服务器、磁盘柜、UPS、空调、监控摄像头、门禁等系统建立统一的带外管理网络,监控信息统一集中汇总至带外管理监控系统中,系统不接入既有的业务系统保障机房基础设备设施安全。

2.1.4链路负载均衡器。将联通、移动等运营商链路在一、二中心分别部署,一、二中心机房外部服务网分别部署主备2套链路负载均衡器,链路负载均衡器采取一、二中心均衡流量配置策略。

2.1.5应用及数据库负载均衡器。在一、二中心机房分别部署2套应用、数据库负载均衡器,形成集群部署。

2.1.6 DNS域名解析。在一、二中心分别部署2套DNS域名解析系统,4套DNS配置为一个集群,服务器、客户端均按照顺序配置一、二中心2个主用DNS系统IP地址。

2.1.7安全防护架构设计。针对综合信息网堡垒机、日志审计、集中安全监控、威胁分析系统、个人文件内外网交互系统、网络安全边界管控、网络安全平台、MQ传输、动环监控以及视频监控等基础设施均采用主备方式,分别部署在一、二中心,提高系统的可靠性,单独一个区域发生断电、网络中断等灾难性故障不影响综合网整体安全防护能力。

2.2应用层设计

2.2.1安全域划分

根据(信技数装函〔2022〕42号)《国铁集团级信息资源服务目录》“一级、二级系统共享成域、三级系统统一成域,四级系统独立成域”的规划原则网络划分为三类安全域,针对运输调度管理系统、货运相关系统等三级系统建立统一区域进行管理,针对财务远程报账、铁路债权债务等二级系统建立资源共享区域进行管理。

2.2.2计算资源部署及需求估算。采用X86架构分布式部署,有效降低后续资源需求增加扩容难度。针对既有应用系统CPU、内存、网络资源进行详细测算,在满足既有应用需求的基础上需考虑未来3年新增应用资源富裕量,同时各类计算资源负荷保持在70-80%之间,核减2台服务器故障后可用容量,确保系统稳定运行且投资效益最大化。计算公式:资源需求=(既有业务需求+新增需求估算)/0.7+2台服务器资源容量。

2.3 数据层设计

2.3.1存储资源部署及需求估算。采用X86架构分布式存储系统部署,统一解决应用、数据库以及文件类非结构化数据存储需求,应具备文件存储(NFS、CIFS、NAS等协议)、块存储(ISCSI、CEPH等协议)、对象存储(SWIFT、T3等协议)等丰富的协议接口,满足后续各类应用软件、数据库在数据传输及存储过程中的加密安全需求。分布式存储应采用三副本方式提高系统安全稳定性,具备数据消重技术提升存储容量的可用性,考虑既有应用需求以及未来3年存储容量增加需求,存储容量上限控制在85%以内,存储采用一、二中心分别部署50%容量,一套中心存储故障,不影响另外中心数据存储正常访问。计算公式:存储资源需求=(既有应用需求+未来3年存储容量增加需求)*3/0.85。

2.3.2 数据同步。一、二中心距离在3公里以内,具备数据库心跳同步条件,采取一、二中心分别部署Oracle、Mysql及国产数据库集群节点形式,一、二中心节点采用万兆(单模)光纤连通。

2.3.3数据库备份规划

根据《国铁集团信息系统故障应急处置和调查处理办法》中所明确的一类业务系统实时性要求,数据备份采用一对多的数据备份模式,满足2项信息系统同时应急演练和应急处置需求,数据备份环境同时作为第三方共享数据统一转发接口。针对二类及其他业务系统采取离线定期备份方式,使用数据备份一体机进行数据备份。数据存储容量根据各系统(系统数量为X)年度存储容量测算汇总值S和需要实时查询年限N,形成总的数据容量测算。计算公式:存储资源需求=1S*N+2S*N……+XS*N。

3.环境部署设计

3.1虚拟机云平台。根据既有的业务部署需求,采用可横向扩展且成熟稳定的虚拟化技术进行建设。

3.2容器云(PaaS)平台。结合国铁集团统型工作推进,为新建信息系统搭建“容器云(PaaS)平台”,提供容器运行环境及云服务,通过应用“微服务架构”快速部署,实现应用快速投产见效。平台建设突出部署、发布、运行、卸载四个阶段全过程管控,提供统一的注册配置中心、服务网关、熔断限流等微服务治理能。微服务引擎宜基于微服务框架选用Spring Cloud、Dubbo、Istio等主流解决方案,基于标准的微服务引擎,构建容器云(PaaS)平台运行环境。

3.3资源环境部署原则。铁路应用系统运行时环境原则上应选用资源服务目录范围内的资源,建议采用(信技数装函〔2022〕42号)《国铁集团级信息资源服务目录》(附件1)中所定义的基础设施环境、计算、网络、应用交付、数据库、安全、传输以及系统监控等资源服务目录,降低使用非通用资源带来的供应链安全风险。

3.4预警监测。采用铁网护栏工程中“集中安全管理平台”,实现机房基础设施、虚拟机/容器云平台、链路负载、应用负载均衡、DNS域名解析、操作系统、数据库、中间件等各层全面监测,针对软硬件故障及时预警。

3.5快速响应并处置。部署企业版(或自研)即时通讯软件,将预警信息通过移动安全接入平台发送至二线技术人员,提高应急响应及故障处置效率。

4.双活中心应急切换设计

4.1针对应用、数据库均采用DNS域名解析方式提供外部访问,可有效解决IP地址变化带来的影响,同时屏蔽网络结构,提高网络安全防护能力,一、二中心应用切换由技术人员调整DNS域名指向来完成切换。DNS域名解析切换要求:RTO≤10分钟,主要为DNS调整后客户端收敛时间,RPO值不适用。

4.2数据切换。发生双中心一类业务数据库集群软硬件故障无法对外提供服务,紧急启动一中心备份库恢复业务运行(图2:综合信息网一类业务数据库异常故障应急处置示意图)。根据《国铁集团信息系统故障应急处置及调查处理办法》(铁科信〔2021〕156号),应急切换要求:一类业务系统RTO≤30分钟,RPO≤30分钟;二类及其他业务系统RTO≤60分钟,RPO≤60分钟。

(图2:综合信息网一类业务数据库异常故障应急处置示意图)

5 结束语

本文提出综合信息网云平台双活中心架构设计方案,有针对性的对云平台所涉及的接入层、应用层、数据层存在的安全风险进行分析,并就如何解决这些问题进行研究和设计。下一步就云平台双活中心如何提高稳定性和应急处置能力进行深入研究,提升综合信息网云平台的可靠性和稳定性。

参考文献:

[1]国铁集团信息技术中心.铁路信息系统双活架构设计指南(试行)[J].信技研建[2022]10号,2022.9.26

[2]吴桦林,纪伟,谢鹏,张雅琴,李志鹏.中老铁路客货运输一体化平台总体架构研究[J].铁路计算机应用,2022,31(5):17-21.

[3]全国信息安全标准化技术委员会.信息技术.信息安全技术数据备份与恢复产品技术要求与测试评价方法:GB/T 29765-2021.[S].北京:中国标准出版社,2022.5.1.