数据挖掘技术在中等职业学校管理实践中的应用研究

(整期优先)网络出版时间:2011-12-22
/ 3

数据挖掘技术在中等职业学校管理实践中的应用研究

陈伟

陈伟1,2

1河南科技大学河南洛阳4710002洛阳幼儿师范学校河南洛阳471002

中图分类号:G718.3文献标识码:A文章编号:41-1413(2011)12-0000-02

摘要:我国中等职业教育的学校规模、在校生人数等都有了很大的发展,高效的数据管理对学校发展起到越来越重要的作用。利用Hash树和Fp树对Apriori算法对学生信息、教学信息、后勤信息进行分析和研究,并进行优化和实施关联规则挖掘,用遗传算法对挖掘成果进行优化,以此来推动中等职业教育的发展。

关键词:数据挖掘;关联规则;遗传算法

1引言

信息时代的计算机数据存储技术等得到了飞速发展。大量的数据与数据分析处理方法相互结合产生了数据挖掘技术,目前数据挖掘是在许多领域和方面得到了广泛应用的技术。随着中等职业教育的发展,提高职业教育质量已成为一个系统工程。目前职业学校已存储了以学校教学实践为中心的大量数据,但是其背后所蕴含的大量有用信息并未得到发现和利用,主要是因为利用分析方法不适应职业学校的大量复杂数据。利用数据挖掘技术从中发现有价值的信息可以指导职业学校教学、就业、后勤等各方面的管理,提高管理效率,降低成本,推动职业教育更好的发展。

2关联规则挖掘算法

2.1Apriori算法及改进

Apriori算法是关联规则挖掘的基本算法,它利用项集的先验性知识和层次顺序的循环搜索方法来发现频繁项集,首先产生频繁1-项集L1;然后利用L1来产生频繁2-项集L2,不断循环下去直到无法发现更多的频繁K-项集为止。

从两个方面对Apriori算法进行改进。

2.1.1利用HASH树对支持度进行计数

HASH树根节点为空,用HASH函数来决定内部节点的分支走向,遍历HASH树可以对候选项集支持度进行计数,用HASH树对候选项集的支持度进行计数,避免了穷举法对事务中的每个项集与候选项集进行比较,而是进行了分类,降低了支持度计数的任务量。

2.1.2用FP树提取频繁项集

FP树(frequentpatterntree)实现了对数据的紧凑表示,可以从该结构中直接提取频繁项集。FP树之中的一条路径所表示的数据序列对应一条事务中的数据,对于不同事务中相同的数据项对应的FP树中的路径可以重叠,从而实现了事务数据的紧凑表示。FP树的节点包括数据项的标记和计数,计数表示经过该路经的事务个数。

(1)对各数据项的数据按照它们的支持度计数的递减顺序排序,从而调整数据集中各数据的次序。

(2)由数据集构造FP树,对第一个事务创建从根节点到事务中各数据的路径并进行支持度计数。

(3)继续读入事务,与创建过路径的事务进行比较将新事务加入FP树,如果与创建过的事务有相同的路径则合并相同的路径,相应节点支持度增加,不同路径增加不同的分支,进行支持度计数。

(4)继续该过程直到所有的事务都映射到FP树。

(5)由FP树依据不同的结尾进行划分,产生以其为后缀的路径。

(6)不同的后缀产生相应的频繁项集。

2.2关联规则的发现

由频繁项集可以较为容易地产生相应的关联规则,可以通过计算置信度来获得强关联规则,关联规则的操作为:

2.2.1对于每个频繁项集L产生所有的非空子集。

2.2.2对于L的非空子集,如果c(L-)=≥min_s,则产生(L-)的关联规则,min_s为最小置信度阀值。

3学校信息的数据挖掘

3.1对学校信息进行关联挖掘

下边以有代表性的学生就业方面信息为例来进行分析。就业信息库中的数据项包括:学生的编号、成绩、学生干部、操行等级、实践动手能力、就业单位,其中编号为学生的唯一标识。为了便于数据存取现在对各数据项的内容进行编号,其中成绩项分为:优(a1),良(a2),一般(a3);学生干部分为:是(b1)、不是(b2);操行等级程度分为:良(c1)、优(c2)、一般(c3);实践动手能力分为:强(d1)、较强(d2)、一般(d3)。就业单位分为:大型公有企业(e1)、大型私企(e2)、一般公有企业(e3)、一般私企(e4)。

现有部分学生就业信息:

学生信息库中共有125条学生就业方面的信息,应用挖掘软件对其进行数据挖掘,最小支持度选定为0.3,最小置信度选定为0.5。其数据信息和挖掘结果如下所示:

在该就业数据库中就业信息处于最主要的地位,也最有分析价值和现实意义。为了挖掘就业方面的关联规则,发现影响就业情况的因素,从挖掘结果中提取“结论”含有就业数据项(e1,e2,e3)的规则,得到的规则表达式和可信度为:

(1)b1|c2e1confidence=0.84

(2)b1e1confidence=0.62

(3)b1|d2e1confidence=0.62

(4)c2|d2e1confidence=0.58

(5)b2e2confidence=0.52

(6)c2e2confidence=0.56

(7)b2|c2e2confidence=0.91

(8)a2e2confidence=0.64

由1至4式得:学生干部且操行达到优、学生干部、学生干部并且实践动手能力较强、操行达到优且实践动手能力较强到大型公有企业就业的可能性分别为0.84、0.62、0.62、0.58。

分析可以得到如下结果:学生干部和操行等级对进入大型公有企业就业有着重要影响,同时也应该提高实践动手能力。

由5到8式得:不是学生干部、操行达到优、不是学生干部且操行达到优、学习良好到大型私企的可能性分别是0.52、0.56、0.91、0.64。

分析得:操行等级和学习成绩对进入大型私企有较大的影响,同时是学生干部对进入大型私企没有进入大型公有企业的影响力大。

3.2遗传算法对挖掘结果的优化

遗传算法是模拟生物的遗传、变异、选择、淘汰等自然选择和遗传机制,以随机的形式将最适合目标的种群通过重组产生新的一代。该算法是一种全局优化算法,适合于较大空间的优化问题,具有并行性、纠错能力强和可操作性的特点。在数据挖掘中会遇到搜索寻求可行解或最优解,需要处理海的量数据要花费很长时间,遗传算法的启发式解决问题的方法可以应用到这一方面。

由上面得到把各种要素对就业的影响可以用数学函数来表示,影响作用的大小对应函数值的大小。下面利用遗传算法对挖掘结果的优化,流程图如下。

具体应用中就业情况受多个因素的影响,先抽取最有影响的两个因素建立模型函数,下边以函数y=(x1*x1-x2)*(x1*x2-x2)+(1-x1)*(1-x1)为例来分析,其中y为学生的就业情况好坏的量化表示,x1、x2分别是操行等级和动手实践能力。

程序中的类型定义为:

intpopsize;//种群大小

intmaxgeneration;//最大世代数

doublepc;//交叉率

doublepm;//变异率

doublefitness;//适应度

intgeneration;//世代数

structinpidualbestinpidual;//最佳个体

structinpidualworstinpidual;//最差个体

structinpidualpopulation[POPSIZE];

各函数说明如下:

(1)voidgenerateinitialpopulation()和voidinput()初始化种群和遗传算法参数。

input()函数输入种群大小,染色体长度,最大世代数,交叉率,变异率等参数。

(2)voidcalculateobjectvalue()计算适应度函数值。根据给定的变量用适应度函数计算然后返回适应度值。

(3)选择函数selectoperator(),在函数selectoperator()中首先用rand()函数产生0~1间的选择算子,当适度累计值不为零时,各个体适应度占总适应度的百分比与选择算子值比较,达到选择算子规定值的那个体被选出,即适应度为fi的个体以fi/∑fk的概率继续存在;显然,个体适应度愈高,被选中的概率愈大。但是,适应度小的个体也有可能被选中,以便增加下一代群体的多样性。

(4)染色体交叉函数crossoveroperator()是遗传算法中的最重要的函数之一,它是对个体两个变量所合成的染色体进行交叉,而不是变量染色体的交叉,这要搞清楚。首先用rand()函数产生随机概率,若小于交叉概率,则进行染色体交叉,同时交叉次数加1。这时又要用rand()函数随机产生一位交叉位,把染色体的交叉位的后面部分交叉即可;若大于交叉概率,则进行简单的染色体复制即可。

(5)染色体变异函数mutation(),变异是针对染色体字符而言的,而不是对个体而言,即个体变异的概率是一样。随机产生比较概率,若小于变异概率,则1变为0,0变为1,同时变异次数加1。

(6)longdecodechromosome(char*,int,int),本函数是染色体解码函数,它将以数组形式存储的二进制数转成十进制数,然后才能用适应度函数进行计算。

(7)voidfindbestandworstinpidual(),本函数是求最大适应度个体的,每一代的所有个体的适应度都要和初始的最佳个体比较,如果大于就赋给最佳个体。

(8)voidoutputtextreport(),本函数输出种群统计结果。

运行结果如图3.4所示为:

设定种群大小为150,最大世代数为80,交叉率为0.5,变异率为0.05,运行结果如图3.4所示,由此得到y=(x1*x1-x2)*(x1*x2-x2)+(1-x1)*(1-x1)的最大值约为47.86,即:整体学生操行等级和动手实践能力对就业的影响程度为47.86。这为大量数据的最优求解问题提供一种参考方法,具有很大的借鉴意义。上述分析方法也有很大的局限性,主要是选择合适的评价函数即适应度函数问题。

4结论

目前,数据挖掘技术在职业学校信息管理中的应用还处于起步阶段,但是由于其在数据处理、分析、组织以及信息挖掘等方面所表现出来的巨大潜力,相信不久的将来,随着数据库的不断膨胀和数据挖据技术在职业学校信息管理中应用的不断深入,为我国职业学校的跨越式发展起到一个科学导向作用。

参考文献:

[1]陈安,陈宁,周龙骧.数据挖掘技术与应用.北京:科学出版社,2006

[2]Pang-NingTanMichaelSteinbachVipinKumar.数据挖掘导论.北京:人民邮电出版社,2006

[3]李本贵.数据挖掘在高校后勤中的应用.企业技术开发,2006(2):22~23

[4]钱能.C++程序设计教程.北京:清华大学出版社,1999

[5]张儒良,王翰虎.论数据挖掘优化教学管理.2004(2):133~155

[6]谷琼,朱丽,蔡智华,袁红星.基于决策树的高校研究生信息库数据挖掘.电子技术应用,2006(1):21~22