支持向量机在教育数据挖掘中的应用综述

(整期优先)网络出版时间:2023-06-28
/ 3

支持向量机在教育数据挖掘中的应用综述

张萌1,康瑞1,李果1,李鉴1

1.天津职业技术师范大学信息技术工程学院,天津市,300222

摘要:本文通过对以“支持向量机”为主题,以“教育”为篇关摘的199篇中文核心期刊和CSSCI期刊进行研究分析,通过运用CiteSpace软件从支持向量机的研究热点进行可视化分析,发现目前我国对于支持向量机在教育数据挖掘方面的研究可以概括为四个方面:模式识别、图像处理、学生行为研究和分类算法研究。通过分析支持向量机应用于教育数据挖掘的不同效果,从而论证了支持向量机推广能力高,应用范围广等优点。然而,鉴于当前样本数据的复杂性不断增加,以及各种新的分类和识别方法的出现,仍然需要探索和改进参考向量机方法。

关键词:支持向量机;教育数据挖掘;数据挖掘;教育;综述

一、研究目的

教育数据挖掘融合了教育学、计算机科学、心理学、统计学等多个学科的理论和方法,以解决教育研究和实践中的多种难题。本文从概念上分析教育数据挖掘,并对其发展进行回顾。由于教育问题的复杂性和多学科性,EDM在数据来源、数据特征、研究方法和应用目标等方面呈现出独特的特征。

教育数据挖掘主要有人工神经网络算法,遗传算法,决策树算法和贝叶斯方法。支持向量机算法(support vector machines, SVM)是近年来发展起来的一种新一种方法,它建立在统计学习理论(Statistical Learning Theory,SLT)之上,采用结构风险最小化作为挖掘模型的判据,很好地处理了传统统计学习理论无法处理的非线性,高维数和局部极小点问题,同时也有很好的推广能力.

支持向量机通过控制参数自动调整模型结构,以减少经验和结构风险。它们在小样本、大规模问题和非线性问题上表现出良好的泛化和预测性能,并被用于人脸识别、数据挖掘、图像处理、语音识别、故障诊断、网络分类、系统建模和检测、模式识别和其他许多领域[1]

这些工具属于具有非常好的泛化能力的学习机类别。使用支持向量机作为训练数据挖掘任务的工具是一个具有理论价值和实际意义的话题。

二、研究样本

本次论文研究所选择的是中国知网中哲学与人文科学、社会科学Ⅰ辑、社会科学Ⅱ辑的相关文献期刊,并限定来源为CSSCI期刊与中文核心期刊,将检索日期设定为2010年1月1日到2022年6月1日,以“支持向量机”为主题,以“教育”为篇关摘进行检索,共得到199篇文献,作为本研究的研究样本。

三、研究方法与工具

本论文主要基于文献研究法、内容分析法进行研究探讨,通过CiteSpace可视化分析软件来绘制以“支持向量机”为主题的知识图谱,从而探究支持向量机在教育数据挖掘领域的研究热点与发展趋势。

本论文参考运用的是CiteSpace6.1.2版本的软件,该软件的主要作用是通过建立由数个被引文献结合生成的一种个性化的、彼此间有联系的被引网络,自动产生结果并自动进行分析。

四、研究热点分析

通过运行CiteSpace软件,选择主题和关键词聚类标签,得到支持向量机的关键词聚类图谱(图1)。通过聚类图谱发现,当前支持向量机在教育领域中的研究热点主要包括模式识别、表情识别、图像处理、学生行为研究、分类算法研究。由于表情识别属于模式识别一部分,故研究热点可分为四个方面:模式识别、图像处理、学生行为研究、分类算法研究。

QQ图片20220604154309

图1 支持向量机关键词聚类图谱

4.1模式识别

支持向量机在模式识别领域的应用最广泛,已成功地解决了诸如手写体、图像处理、语音识别等许多识别和分类问题。

在手势识别领域,范文渊[2]等人已开发出一套面向人工智能教学的sEMG手势识别系统,并对其进行了验证。为最大限度地利用 sEMG中的有用信息,在此基础上,设计了 FIR滤波器、巴特沃斯带通滤波器和高斯混合小波去噪方法,将 sEMG中的噪音去除,并将其与已有的 EMG信号进行比较,验证了该方法的有效性,并且能够很好地保持原有 EMG信号的特性。

在文本识别方面,杨文敏等人应用SVM分类器进行句子级文本识别,提取信息并对含义模糊的词进行分类。Ryu等提出了一种基于结构化学习的新型SVM分类器,用于手写文件的图像分类,Elleuch等人提出了一种基于支持向量机的深度学习模型(DSVM)用于手写识别。Lakshmi等人使用模糊支持向量机来识别文本中具有特殊意义的实体。在文本识别领域,针对每个具体应用,对SVM分类器的不同方面进行了分析,如表1所示。

表1文本识别中SVM应用分析

作者

应用对象

优势

劣势

杨文敏等

不确定性文本信息

词特征提取, 提高检测效率

基于句子级, 忽略上下文联系

Ryu等

拉丁、印度语言

结构化学习抗干扰能力强

选取语言代表性不强

Elleuch等

手写文本图像

结合深度模型高效识别目标

应尝试使用多种核函数方法

Lakshmi等

特殊意义文本

引入模糊学习提高模型区分力

检测实时性有待提高

在语音识别方面,何佳康[3]以视频为基础观察本科教育中课堂互动设计了一套基于视频数据的课堂教学交互活动信息追踪方法,其在科学和实践上都有很强的针对性。对于本科生来说,一般教学的形式包括普通讲授、研讨会和实验课。针对普通讲授的交互活动,开发一种2DPCA+PCA+SVM人脸识别方法来识别参与互动的主体。为了提高识别精度,引入了全局竞争和随机吸引的概念,同时,对于普通讲授方式的交互内容进行语音识别,并通过语音信息进一步提高交互主体的识别效果。

4.2图像处理

程建邦开发了一个基于机器视觉图像的试卷批改系统,利用机器视觉图像批改试卷,实现试卷的自动批改或辅助批改[4]。该系统旨在代替教师改卷或协助教师改正一些客观题,减轻教师的工作量,提高教师的工作效率。采用数字图像处理和字符识别算法,从答卷中提取答案信息,并将答案字符转换成规范化的二进制图像。

宋鹏程实现了一个基于OpenCV的试卷评分自动检测分析系统,以方便对试卷进行客观的项目评分和主观项目评分的统计评价[5]。该系统主要针对手写数字和字母的识别,因此选择了支持向量机算法来识别手写数字和字母,并对识别结果的准确性进行了验证。在测试过程中,该系统对手写字母的识别准确率达到96%以上,阅卷速度达到每分钟4份,符合实际应用的要求。

王胜春提出了一种基于参考向量机信息图的新的图像识别算法,该算法可以准确识别不同笔迹、不同纸张质量和存在运动变形等不同条件下的图像[6] 。基于所提出的算法,设计了一个通用的智能试卷处理系统,并利用微软VSTS开发平台实现了各种考试系统。

4.3学生行为研究

张扬武等人利用支持向量机应用于成绩进行了分析。利用最优分割平面,将课程成绩按照成绩分布成不同的特征,建立了学生平时成绩与课程总成绩之间的动态关系,并利用支持向量机的高维映射能力,将低维无差异数据映射到高维可差异空间,解决了低维空间的采样不足问题[7]

在瞿文建等人的工作中,将SVM回归方法引入到一个复杂的高等教育质量控制过程中,结合其质量改进和优化的特点,开发了一种应用基于SVM的小样本回归模型的方法[8]

巩维利用计算机视觉技术,及时收集和分析学生在课堂上的学习行为。在某些方面,学生的身体行为比他们的面部行为更能反映出他们的听力状况,更适合在课堂上使用。提取特征向量,用支持向量机训练模型进行分类[9]。根据研究内容,设计并实施了一个学习行为评估系统。

石静[10]通过使用数据挖掘技术实现了对于大学生的行为和学业成绩的信息和指导。通过利用大学生的常规行为数据进行建模,采用KNN算法、支持向量机和普通贝叶斯算法,对分类结果按一般水平和成绩水平进行分析,以分析学生的行为特点,辅助知情教学,实现对学生偏差的预警,优化教学实施过程,促进学校的学生学习和管理。

4.4分类算法研究

支持向量机作为一种新的、独特的机器学习算法被广泛应用于数据挖掘和模式识别中,而分类是一项非常重要的数据挖掘任务。

在行为轨迹分类识别领域,李斌[11]提出了一种优化的核函数的支持向量机(SVM)算法,将大学生在特定时间内与教室调换相关的行为轨迹作为一个模式分类问题进行分类。通过基于支持向量数据描述算法来优化混合核参数,以获得最佳的多类SVM模型,能够用少量的训练样本对学生的轨迹进行分类。与单粒子族算法和遗传算法相比,提出的算法只需要进行单粒子族优化,降低了算法的成本,识别准确率可以达到89.8%,可以帮助高校优化教育学习资源的布局。

郭双双[12]使用建模算法分析了考级优秀与非优秀数据的数据,并使用两种算法,即支持向量机模型和逻辑回归模型,将考生分为优秀和非优秀。使用了不同的支持向量回归核函数对考试数据进行建模和分析,并使用矩阵减法算法来用来估计考试数据中的缺失值,这为估计优秀考试成绩的缺失数据提供了一个可靠的方法。为了避免过度拟合,从而达到更好的泛化效果,引入了一个L2正则化项。并提供了2017年浙江省在线艺术考试按主要学科、应用水平和年龄的分布情况,从而为政府和行业发展提供参考。

在题目分类问题上,丁顶[13]研究并实际应用了文字区域定位算法、分类算法、一般系统设计及相关应用。通过采用横断面法对手机照片获得的图像中主体所在的文字区域进行定位,使进一步的操作只关注文字区域,减少了分割和检测的工作量,提高了准确性。使用多特征提取方法对定位的文本区域进行分类,并将定位区域的特征提取为一个集合。然后使用从两分类支持向量机修改而来的三类支持向量机将文本区域分为三种类型:数学、语言和英语。为了测试前面两种算法的有效性,考虑到光学字符识别的应用前景,设计并实施了一个基于图像的特征识别系统,用于检测手机照片中的主题文本和搜索主题数据库。

五、研究结论与展望

本文在简单介绍支持向量机在教育数据挖掘方面应用的基础上,研究分析其在教育领域的主要应用。同时通过选择有代表性的论文来说明支持向量机应用于教育数据挖掘的不同效果,从而论证了支持向量机推广能力高,应用范围广等优点。然而,鉴于当前样本数据的复杂性不断增加,以及各种新的分类和识别方法的出现,仍然需要探索和改进参考向量机方法。

一、改进核函数。当前,已经有研究者综合运用了各种核函数,并在认识到每种核函数方法优点的前提下进一步最大限度地利用了它们的优点;给定的核函数中参数可以调控,研究人员可以根据数据分析或根据一些参数优化准则来调节这些参数。

二、分类探讨数据。支持向量机不应仅适用于某一个小样本数据集上,需要在分类出不同形式和特征的大数据上使用,从而能够更好的适应大数据时代的发展。

三、模型组合。如今深度学习方法已经越来越成熟,在模式分类和目标识别方面的应用也相当有效,研究者可以把支持向量机模型和深度模型相结合,在提高检测识别率的同时利用二者的优势。

最后,希望能根据支持向量机技术的进步,在合理的研究方向上做出进一步的改进以及新的想法。

参考文献

[1]丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10.

[2]范文渊. 应用于人工智能教育的sEMG手势识别系统研究与设计[D].上海师范大学,2021.DOI:10.27312/d.cnki.gshsu.2021.000827.

[3]何佳康. 面向智慧教育的课堂教学交互活动视频分析[D].北京化工大学,2020.DOI:10.26939/d.cnki.gbhgu.2020.000708.

[4]程建邦. 基于机器视觉的试卷自动批改系统设计[D].山东科技大学,2020.DOI:10.27275/d.cnki.gsdku.2020.001392.

[5]宋鹏程. 基于OpenCV的试卷得分自动识别与成绩分析系统的设计[D].湖南大学,2019.DOI:10.27135/d.cnki.ghudu.2019.003260.

[6]王胜春. 基于SVM的信息卡识别系统[D].湖南师范大学,2008.

[7]张扬武.支持向量机在成绩分析中的应用研究[J].福建电脑,2019,35(03):43-47.DOI:10.16707/j.cnki.fjpc.2019.03.010.

[8]屈文建,谭光兴,魏莺,徐晓芳.SVM回归在高校教育质量分析中的应用研究[J].情报杂志,2010,29(04):46-51.

[9]巩维. 基于骨骼关键点检测的学生学习行为识别系统的设计与实现[D].吉林大学,2019.

[10]石静. 基于数据挖掘的学生行为对学业成绩影响的研究[D].华中师范大学,2017.

[11]李斌.基于多分类支持向量机的教室调换行为轨迹分类识别[J].中国科技论文,2019,14(11):1173-1178.

[12]郭双双. 基于模型算法的网络艺术考级研究分析[D].浙江大学,2018.

[13]丁顶. 手机拍照下题目分类算法的研究[D].北京邮电大学,2016.

  1. 张萌(1999-),女,天津职业技术师范大学信息技术工程学院硕士研究生,研究方向为职业教育信息化;2.康瑞(1998-),女,天津职业技术师范大学信息技术工程学院硕士研究生,研究方向为职业教育信息化;3.李果(1997-),女,天津职业技术师范大学信息技术工程学院硕士研究生,研究方向为职业教育信息化;4.李鉴(1998-),男,硕士,研究方向为人工智能教育应用、教育信息化。