基于集成学习的中医病案数据挖掘方法研究

(整期优先)网络出版时间:2021-06-02
/ 2

基于集成学习的中医病案数据挖掘方法研究

于惠崧

黑龙江省疾病预防控制中心 黑龙江哈尔滨 150030


摘要:随着我国信息技术的不断发展,信息技术在各个行业中得到了广泛的应用,尤其是在数据分析管理方面,信息技术发挥了极大的作用。对于中医行业来说,病案数据是人们开展中医研究发展的重要数据基础,而信息技术的应用能够实现中医数据信息化管理,构建高效管理与分析的系统,帮助人们对中医理论以及临床经验进行分析与继承,最终实现中医诊断技术与医疗技术的突破。中医在临床诊疗过程中积累了大量的病案资料,如果还是应用传统的人工记录、管理方法则会增加医疗工作人员的负担,同时还会降低工作效率。因此,技术人员可以利用信息技术构建出基于集成学习的中医病案数据管理系统,设置数据分析与挖掘功能,帮助人们开发病案资源,获取有效信息,辅助现代中医技术的创新发展。

关键词:集成学习;中医病案;数据挖掘;方法研究

引言部分

中医在临床诊疗的过程中将会对病患的基本情况以及诊疗过程进行记录,以供今后进行查阅与研究。因此,中医病案成为了中医研究发展的重要资源载体,其中蕴含大量中医诊疗经验与知识,可供后人研究学习。然而面对海量的中医病案,如何才能够快速从中挖掘出有效的病案信息成为了当前中医行业人员共同面对的问题。对此,技术人员提出使用信息技术构建集成学习功能的中医数据管理系统,使用软件对中医学病例内容进行总结与分析,最终归纳出其中的规律与知识,促进我国中医的科学传承与创新发展。本文将从集成学习的定义、中医病案数据特症以及基于集成学习的中医病案数据挖掘方法研究三个方面进行相关论述,以供参考。

  1. 集成学习的定义

集成学习从本质上来说就是一种分类预测算法,其功能的开发就是为了提高分类工作的准确率,体现出智能化的工作特性。通常情况下,如果技术人员需要对某复杂数据进行分类处理,就可以针对某特定训练集进行实践训练,最终得到一个特定的学习模型,之后再使用该学习模型对未知样本进行规律性预测。然而集成学习的运行原理却与以上原理不同,集成学习主要是在训练数据集基础上构建多个存在差异性的基分类器,通过对所有基分类器预测结果的整合得到最终的预测结果。与前者的特定单个学习模型预测工作相比,集成学习能够应用于多种归纳总结情况,体现出泛化特性,这也是机器学习研究领域中非常热点的技术。

  1. 中医病案数据特征

首先,中医病案数据具有异质性特征,由于病患的基本情况各不相同,再加上中医问诊记录的习惯也不统一,导致中医病案内容比较复杂,没有统一的格式与规律。其中很多医师在记录的时候还会增加自己的注释,同时将交谈内容也如实记录下来。再加上中医病案记录并未形成规范性的流程与语言,导致医学数据存在低数学特性的问题,每个医师在描述病症的时候使用的语言都存在一定的差异性,这样非结构化的语言难以进行标准化分类。尽管病案存在异质性特征,但是病案记录的内容同样都具备开发利用的潜力。其次就是隐私特征,由于中医病案记录会涉及到患者的隐私信息,因此技术人员在进行数据挖掘处理的时候应当在保留信息原本的基础上保护病人的隐私。另外,病案数据还呈现出多样性的特征,即使是同一种病症,不同的医生以及病人的交流也是不同的,而这些不同就体现在病例数据记录中,原始病案信息非常复杂,具有多样性特征,这也增加了数据挖掘工作的难度。

  1. 基于集成学习的中医病案数据挖掘方法

  1. 基于多模态扰动策略的集成学习算法

经过需求调查,技术人员可以使用多模态扰动策略代替单一形式的集成学习。

多模态扰动策略的应用能够从特征空间、样本空间以及其他方面引入多种参数并开展同时扰动,这样就能够产生更大的差异性,进而实现基学习器的多样性。具体来说,技术人员需要设置有放回随机抽样策略扰动样本空间,之后再使用特征选择算法进行特征空间扰动,其中技术人员将具备良好性能的HCFS特征选择算法引入集成学习中进行扰动,经过以上步骤形成了基于抽样和特征选择的集成学习算法[1]

  1. 基于加权贪心策略的选择性集成学习算法

所谓的贪心策略在计算机算法原理中也被称为贪心选择法,其选择原理就是总是选择当前最优的选项实现最优的期望。从系统运行原理来分析,贪心选择法就是为了实现全局最优而通过局部最优策略解决问题,最终达到全局最优的效果。技术人员在利用贪心策略之前需要对待解决的问题进行分类整理,将整个问题分解成小规模的子问题,使得系统得到一组构成整体最优解的候选对象集合。此时算法将指定起始候选对象集合为空,之后再根据子问题解的顺序对答案进行筛选,将其中符合需求的最佳子解放入候选对象集合中,等到系统算法将所有的数据筛选结束之后就能够得到解决问题的最佳组合[2]。该算法的基本思想就是从初始解出发在筛选的每一个环节中都考虑局部最优解的情况并进行记录整理。其中还应该注意,筛选的每一步都能够考虑一个元素,一旦元素与部分最优解相连之后不可行,系统就会将该元素清除,直到所有的元素都被筛选过。集成学习系统的原理就是增加基分类器之间的差异性,进而提升数据挖掘与开发的准确率,进一步提高算法的泛化性能。但是如果基分类器的数量过多,就会出现冗余的现象,此时的系统不仅会增加运算的成本,同时还会出现预算性能以及准确度降低的情况。对此,技术人员提出了选择性集成学习算法,通过选择性集成功能提高预测的准确度,加快系统预测速度,完善系统算法与功能。另一方面,由于基分类器的分类预测性能各不相同,要想突出性能优越的基分类器,技术人员就应该根据基分类器的性能为其设定不同的权值,之后再使用贪心策略完善算法的组合功能,这就是在基分类器选择基础上的基于加权贪心策略的学习算法

[3]

结束语

综上所述,中医病案资源具有重要的开发与参考价值,是珍贵的信息资源,技术人员应当加强信息技术的应用,构建基于学习集成的中医病案数据挖掘系统,完善其中的算法,开发病案信息内容,提高信息数据分析与整理的效率,促进中医的现代化发展。

参考文献:

[1]张守宾. 基于集成学习的中医病案数据挖掘方法研究[D].青岛科技大学,2018.

[2]董国华. 基于数据挖掘的中医诊断智能信息化技术研究[D].青岛科技大学,2015.

[3]陈东. 基于集成学习的不平衡数据分类算法研究[D]. 大连大学, 2020.