关联规则数据挖掘在临床医学中的应用

/ 1

关联规则数据挖掘在临床医学中的应用

敖小红单维霞

敖小红单维霞/云南经济管理职业学院商学院

【摘要】论文使用关联规则中的Apriori算法挖掘医院病人的临床就诊资料,归纳出症状与疾病间的关联规则,对挖掘出的关联规则做出分析和说明,并探讨其在医疗信息系统中的应用,是数据挖掘技术应用在临床医学上的一个尝试。

【关键词】关联规则;Apriori算法;临床应用

随着计算机和自动化数据采集工具的广泛应用,在诸如商业管理、政府办公、科学研究和工程开发等领域数据库中存储了大量的数据,这使得人们对这些数据进行分析并转化成有用知识的需求变得越来越迫切。于是数据挖掘[1]和知识发现(DMKD)就应运而生,而且发展迅速,越来越显示其强大的生命力。数据库中的知识发现,简称KDD[2](KnowledgeDiscoveryinDatabase)。它泛指所有从源数据中发掘模式或联系的方法,人们接受这个术语,并用KDD来描述整个数据挖掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(DataMining)来描述使用挖掘算法进行数据挖掘的子过程。

目前,随着全球化信息化大潮的来临,数据挖掘技术已经被广泛应用到了各行各业中用来辅助企业的领导层进行决策。数据挖掘包含很多技术,大致可以归纳为以下几种:(1)神经网络方法(2)遗传算法(3)关联规则(4)决策树方法(5)粗糙集方法(6)覆盖正例排斥反例方法(7)统计分析方法(8)模糊集方法等等。

一、关联规则算法介绍

关联规则[3]表示数据库中一组对象之间某种关联关系的规则。论文将病人病情相关信息与病症联系起来,挖掘并分析病人患病的规律。

二、临床信息挖掘

论文通过对中南大学湘雅医学院第三附属医院185名慢性肾功能衰竭病人就诊的临床数据进行整理,使用Apriori算法挖掘出病症与疾病之间的关联关系,建立关联规则,为慢性肾功能衰竭患者的疾病诊断和治疗提供方便。具体的实现过程包括四个阶段[4-5]:数据预处理、建立算法模型、建立关联规则、结果分析。

(一)数据预处理

(1)数据清理。在病人就诊资料中,部分资料出现缺失,对于缺失的数据,可能对患者疾病造成一定程度的影响,为了保证实验的合理性与正确性,将缺失部分数据的记录从原始数据中删除。因此,选取患者编号、血尿素氮含量、血肌酐含量、血尿酸含量、微球蛋白含量值都存在的记录,重新整理出病人就诊数据库。

(2)数据规约。在病人就诊数据库中,各项指标值波动范围广,并在不同疾病间出现不同的值,因此,对病人就诊数据库中的数据进行规约,将数据转换为可供数据挖掘的形式是相当必要的。论文对原始数据各项指标规约如下:对血尿素氮,原始数据为3.20-10.50mmol/L的规约后取值为0,原始数据为10.51-15.50mmol/L的规约后取值为1,原始数据为15.51-21.50mmol/L的规约后取值为2,原始数据为21.50mmol/L以上的规约后取值为3;对血肌酐,原始数据为100-200umol/L的规约后取值为0,原始数据在201-450100-200umol/L的规约后取值为1,原始数据为451-700100-200umol/L的规约后取值为2,原始数据为700100-200umol/L以上的规约后取值为3;对血尿酸,原始数据为50-200mg/L的规约后取值为0,原始数据为201-400mg/L的规约后取值为1,原始数据为401-600mg/L的规约后取值为2,原始数据为600mg/L以上的规约后取值为3;对微球蛋白,原始数据为1.5-5.5mg/L的规约后取值为0,原始数据为5.6-10.5mg/L的规约后取值为1,原始数据为10.6-20.5mg/L的规约后取值为2,原始数据在20.5mg/L以上的规约后取值为3。

(3)数据转化。将病人就诊数据转换为可供数据挖掘的事务数据。

①为了方便数据挖掘,将病人就诊数据库中血尿素氮含量、血肌酐含量、血尿酸含量、微球蛋白含量分别用字母A、X、P、Z表示;

②各项指标含量取值分别用①设计的含量代表字母和数据规约中各项指标值规约后取值组合构成(即若血尿素氮在3.20-10.50mmol/L,则用A0表示其取值),依次类推;

作者简介:敖小红,女,1985年生,云南经济管理职业学院商学院,从事中小企业管理研究;单维霞,女,1988年生,云南经济管理职业学院商学院,从事企业物流管理研究。