病理数字切片管理平台基础设施设计和实现

(整期优先)网络出版时间:2022-07-12
/ 3

病理数字切片管理平台基础设施设计和实现

翁锦阳,朱铁兵

上海交通大学医学院附属瑞金医院

摘  要  随着病理切片数字化扫描技术的成熟,数字切片数据呈指数级增长。由于它包含了玻璃切片上的所有病变信息,具有超大空间、高分辨率的特性,因此需要占用大量的存储空间,在大型三甲医院,如将全量切片做数字化扫描,每年的数据存储需求在500TB量级,技术部门面临的管理维护问题随之涌现。主要面临的问题包括:基础设施增多,海量切片数据管理复杂,访问缓慢,难以快速满足数字病理业务发展,对于应用和管理员是严峻考验。医院通过构建数字切片统一存储管理平台,实现相关数据和信息统一管理,避免分散方案带来的管理上的复杂性以及高昂的建设费用,同时在业务应用系统无感知的情况下,实现基础架构的持续优化升级。瑞金医院基于该方案提升数字切片访问体验方向,取得了很好的运行经验。

关键词  病理  数字切片  统一管理

Abstract With the maturity of digital scanning technology for pathology sections, digital section data is growing exponentially. As it contains all the lesion information on glass slides, with the characteristics of large space and high resolution, it needs to occupy a large amount of storage space. In large tertiary hospitals, if the full volume of slides are digitally scanned, the annual data storage demand is in the order of 500TB, and the management and maintenance problems faced by the technical department emerge. The main problems faced include: increased infrastructure, complex management of massive slice data, slow access, and difficulty in quickly meeting the development of digital pathology business, which is a severe test for applications and administrators. By building a unified storage and management platform for digital slices, the hospital realizes unified management of relevant data and information, avoiding the complexity of management and high construction costs brought by decentralized solutions, and at the same time realizing continuous optimization and upgrading of infrastructure without perception of business applications. Based on this solution, Ruijin Hospital has achieved good operational experience in improving the direction of digital slice access experience.

Keyword pathology, digital slice, unified management

1目的和需求

数字病理发展至今,在数字切片存储和管理层面,面临着如下“痛点”:

1.1随着时间推移基础设施增多,基础架构复杂性越来越成为负担

医院切片存储量预计年增570TB至630TB。医院病理系统(Pathology Information System,PIS)作为数字切片管理的核心,在医院内承担数字切片包括接收、回传、调阅、标记在内的全生命周期管理。

PIS作为医院临床病理学科核心系统,普遍面临系统成为性能瓶颈、业务体验差、安全可靠性差等问题。医院一般采用多种类型存储满足性能、可靠性要求,使得医院内基础架构日趋复杂。典型医院内PIS存储较多的是三级存储技术,其中一级存储作为在线存储用于PIS的数据库和短近期的数字切片的存储,二级存储作为近线存储,三级存储通常采用离线归档的方式对整个医院长期的历史图像进行归档。

[1]随着AI、数字切片共享等需求增加,传统的存储架构无法满足实时业务需求和新数字切片技术发展的要求,云硬盘、云网盘、对象存储等成为新的存储形式加入到基础架构中,这也进一步加剧基础架构管理负担。

1.2硬件创新技术在数字切片管理中应用延迟高,难以及时满足数字切片业务发展

为了提高医院的工作效率与竞争力,PIS的存储系统应当可以实现高速查询调阅图像。但是随着切片扫描设备分辨率的升级,以及分子病理诊断的引入,传统的基础架构和PIS软件难以达到数字切片图像对指定部位大倍率流畅放大、缩小的要求,医生阅片的体验,反而随着检查设备的升级而下降。

为了满足数字切片阅片性能问题,一般采用全闪存块存储承载热点数据,实现将热点数据存放在固态硬盘中,缩短响应时间,并通过数字切片归档至大容量冷存储中。但这种方式不得不耗费大量存储、网络利用率和时间在转储工作上,且PIS程序需要进行定制开发,以适应此基础架构。另外,由于新技术更新换代快、软件厂商缺乏硬件优化经验等原因,PIS系统的适配周期一般需要二年至三年。[2]

1.3数据管理割裂,基础架构和软件高度耦合

在PIS基础架构优化中,数字切片数据分布或复制在多个块存储、大容量文件冷存储、蓝光光盘库或磁带库中,数据孤岛仍然存在。由于缺少统一的数据管理平台,导致在线信息量少,跨域数据查询效率低下,严重影像应用体验。

为了保障数据安全、可靠地进行基础架构升级,需协调各软件厂商配合深度参与,这就要求升级前后的数据存储和访问方式尽量一致。如依赖PIS服务器端操作系统文件系统,在升级后版本、格式皆保持同构。如此,数字切片存储的基础架构存在持续老化的风险。[3]

2设计和实现

设计了能够有效解决当前医院对于数字切片基础设施性能和管理方面面临的“痛点”地数字切片管理平台:

医疗数字切片数据管理平台部署于标准信息化基础设施,以及数字切片类应用软件间的系统软件平台。平台从底层向上为医院PIS、数字切片、病变AI识别和标记系统提供了一体化管理平台。帮助医院建立归一管理方式,从而避免了应用系统分散管理方案带来的管理上的复杂性以及高昂的费用,同时也消除了数据孤岛,可真正实现一体化数据和信息管理。数字切片管理平台从架构上,主要分为以下功能模块:

1)数据目录:利用单一平台实现统一管理分散在各业务系统中的数字切片数据,简化各业务系统之间的集成复杂度。同时基于元数据管理,实现可视化地浏览、管理并访问所有的数据和信息。

2)接口层:为数字切片数据存储、读取、检索提供标准的API/REST接口,将各应用系统内的数据按照规范和数据标准进行交换与集成;基于平台的数据共享,有效减少新兴数据沟通成本,为各类AI应用快速创新建立基础。

3)服务层:为数字切片保护、迁移、归档、访问加速、多类型基础架构支持提供服务支撑,实现基于服务的数字切片数据管理,屏蔽不同业务系统、不同硬件基础架构带来的管理复杂性。

4)适配层:与业界主流的存储介质、存储协议、存储设备和云存储进行集成,实现数字切片数据在不同基础架构中的一致性访问体验。

5)并发层:针对不同存储系统、访问协议、介质类型进行数字切片访问优化,解决上层应用访问效率优化问题,充分发挥基础架构能力,实现客户端和应用端的最佳访问体验。

狭义来看,数字切片数据管理平台可以看成是对PIS的增强以及数字病理图书馆大数据平台的基础设施平台,帮助PIS回归业务本质,聚焦不断完善自身功能去获取更广泛的应用价值,并支撑病变AI识别和标记等新型技术的应用。[4]

基于数字切片数据管理优化设计优势:

2.1基础架构变化对业务系统无感知,业务系统更专注

随着PIS系统建设和演进,承担数字切片的存档和传输管理职责已非其核心。能否持续优化科室业务流程,优化医院、科室的精细化运营和管理,成为接下来PIS重点关注的问题。因此,未来的PIS的重点应该是提升数字切片检查的效率、效益,挖掘海量数字切片数据的价值。

基于平台的数据共享,有效减少新兴应用的数据沟通成本,为PIS、数字切片AI应用快速创新建立基础。为数字切片保护、迁移、归档、访问加速、多类型基础架构支持提供服务支撑,实现基于服务的数字切片数据管理,屏蔽不同业务系统、不同硬件基础架构带来的管理复杂性。

2.2对下层硬件针对性进行优化,保证不同存储时的用户最佳体验

PIS作为承载医院内数据量最大的信息系统,数字切片的存储、读取、共享效率是决定医疗业务体验的关键,但是随着PIS软件架构的老化、以及软件厂商投资重点的转移,PIS在数字切片传输和调用性能已经成为制约院内信息化满意度的关键因素。

同时,随着病变AI识别和标记等辅助诊断应用不断深化,以及互联网应用地投放,诊疗数据向患者开放、向其它业务系统开放,已经成为常态化需求。现有PIS架构与AI、“互联网+”应用集成,除了新老系统间的接口问题和多个应用的调阅策略问题,仅仅是新增系统的访问带来的额外开销就有可能产生新的性能问题。

从PIS软件发展来看,由于产品成熟度问题和特定领域专业性问题,PIS软件适配新的基础架构技术和产品的速度普遍滞后二年至三年。因此,让PIS软件聚焦业务本身,数字切片管理平台针对不同存储系统、访问协议、介质类型进行数字切片访问优化,可以解决上层应用访问效率优化问题,充分发挥基础架构能力,实现客户端和应用端的最佳访问体验。

2.3实现数字切片在不同介质、不同存储系统间数据流动的统一管理

典型的PIS系统在数字切片管理的核心功能为接收、存储、调阅。随着医院数字切片管理的要求,现代PIS系统核心功能扩展到接收、回传、调阅、分析、标记的数字切片全生命周期管理,这其中涉及到不同介质、不同存储的数据生命周期管理。典型的数字切片生命周期管理比如温数据、冷数据归档到大容量介质上、归档数据有多个副本存储在不同的存储介质上,不同副本需要设定不同的保留期限,可能还需要利用第三方的备份软件来保护归档数据。

这样的数字切片数据管理方式依赖于PIS软件进行功能升级,从而导致PIS软件模块功能越来越复杂,同时易导致PIS软件更换、版本升级时带来数据管理功能丢失等问题。依赖于统一的数字切片数据管理平台,数据的归档、备份、流动是自动的,PIS软件、AI应用、互联网+应用按照标准接口获取数字切片数据,而无需关心数字切片所在的具体存储设备。最终,数字切片数据能在各种介质间和存储系统间进行转换和流通,业务系统能够透明的使用存储中的数字切片数据,极大简化管理操作、提升存储利用率。[5]

3建设实例

上述医院基础设施方案,是笔者所在医院数字切片管理平台设计和应用的规划和经验总结。笔者所在医院首先完成了数字切片基础架构的优化,提升了PIS基础架构的可靠性和访问性能。

业务系统可靠性和数据可靠性是基础架构升级和改造的前提,医院在进行数字切片基础架构优化设计时,坚持业务流程不变更和可靠性不降低的“两不”原则,从存储设备特点入手,充分理解PIS业务流,最终实现了业务可靠性不变、数字切片访问体验提升超预期的效果,同时核心存储架构由一台全闪存块存储存储和一台文件存储简化为一台分布式文件存储架构。

在生产环境中的测试效果显示,数字切片读取速度提升3倍以上,写入速度提升2倍以上。

4结论

通过数字切片统一管理平台的建设,对PIS、数字切片、AI识别和标记等工作流屏蔽底层基础架构,实现业务应用和数据管理分离,让PIS聚焦满足医院内数字切片应用的要求。同时,数字切片管理平台聚焦新硬件技术发展和数据管理要求。通过统一平台管理医院内数字切片资产,帮助更好地挖掘数字切片资产价值。同时,通过适配不同硬件设备,在进一步节省基础架构设施投资的情况下,为医院用户提供最佳的数据访问体验。

参考文献

[1] 叶美华, 盛弘强, 王怡栋,等. 数字病理切片系统可视化数据应用简介[J]. 中华病理学杂志, 2012, 41(1):3.

[2] 邓杨, 包骥. 数字病理中计算机辅助诊断研究展望[J]. 实用医院临床杂志, 2017, 14(5):3.

[3] 刘炳宪, 谢菊元, 王焱辉,等. 基于云计算的数字病理远程会诊及管理平台[J]. 中国卫生产业, 2017, 14(10):3.

[4] 孙龙杰. 基于Doubl-Cluster双集群架构的分布式存储研究[J].  2022(4).

[5] 高忠军, 杨骥, 彭华, 等. 基于云计算的三维医学数字切片后处理云平台[J].中国卫生信息管理杂志, 2014,11(3): 251-254,290.