大数据驱动的高等教育质量监测评估关键技术分析

(整期优先)网络出版时间:2023-01-09
/ 2

大数据驱动的高等教育质量监测评估关键技术分析

曹启坤

辽宁工程技术大学土木工程学院 辽宁阜新 123000

【摘要】现代化高等教育发展进程中,教育质量评估监监已成为推动教育发展的有效途径。在大数据的驱动下,应用高新技术手段对高等教育质量实施监测评估已成为必要的实践形式,由于高等教育质量监测评估数据直接决定了大数据的属性,所以有必要针对数据信息展开有效的分析。本文通过对高等教育质量监测评估数据来源及处理技术等关键问题进行分析,切实为大数据在高等教育质量检测评估工作中应用扫除技术障碍,为高等教育监测工作提供具有指导性的理论依据。

【关键词】大数据;高等教育;质量监测评估;技术分析

现阶段针对高等教育质量进行监测评估,已成为提升教学水平和人才培养质量的重要组成部分,这一举措对于教育发展而言具有重要的现实意义。通过教育质量监测评估这种手段机制,教育部门可以利用评估结果不断地反思与总结教学经验,促使实际教学形式能够更好的顺应时代的发展。一般情况下,高等教育质量监测评估是对教学过程的动态信息进行收集和客观描述,检测教学活动是否按照预定教学目标所执行,并通过相应的检测结果作出修正和监控,从而保证教学目标能够高效达成。并且,这一评估形式还能够精准地对高等教学实施存在的问题进行预测、预警,从而使得高等教育质量和效率获得有效的提升。

一、高等教育质量监测评估数据来源

(一)结构化数据

在高等教育质量评估过程中通常是以结构化的数据为主,这样的形式不仅能够将数据信息进行量化和比较,同时还能够帮助数据分析和评价找到相应的模型与工具,所以结构化数据已成为高等教育质量检测评估主要数据来源。结构化数据可以让搜索引擎提供更丰富的搜索结果摘要展现,通俗而言就是为数据应用者具体查询内容提供帮助的详细信息,让使用者能够直接在搜索结果中看见你商品的重要信息。例如:利用结构化数据对高校人才培养质量、教师队伍以资源、科学研究水平进行数据统计与分析。

(二)半结构化数据

半结构化数据主要是以图片信息和文字信息为主,对高等教育质量实时监测评估时,虽然这些内容都能够实现结构化储存,但是其中一些数据很难对其进行描述和反应,即便部分内容可以运用分体系形式进行阐述,但是这一形式由于缺乏相应的解读标准,从而导致结构化应用受限。比如存储教师的简历,可能有的教师的简历内容选项很简单,只包括教育情况;但是有的教师简历却很复杂,比如包括工作情况、婚姻情况、户口迁移情况、党籍情况、技能证书信息等等。如果要想将这些信息完整的保存下来并不是很容易的,因为我们不会希望系统中的表的结构在系统的运行期间进行变更。所以半结构化数据极具灵活性,半结构化数据是“无模式”的,简单而言就是其数据是自描述的,它能够携带了关于其模式的信息,并且可以随时间在单一数据库内任意改变。针对上述内容可以将现有的简历中信息进行粗略的统计筛选理,总结出简历中信息所有的类别同时,要考虑系统真正关心的信息。对每一类别建立一个子表,比如上例中我们可以建立教育情况子表、工作情况子表、党籍情况子表等等,并在主表中加入一个备注字段,将其它系统不关心的信息和一开始没有考虑到的信息保存在备注中。

(三)非结构化数据

正所谓“非结构化数据”就是指数据内容主要以音频或视频内容为主,这些内容是无法进行评估的,比如网络社交视频、教学视频、课堂研究记录及学术报告等内容,虽然这些数据能够很好地反映教育教育过程和教育状态,但是由于这些数据信息并没有有效的分析工具,导致传统高等教育质量监测评估过程中往往会忽略这些信息内容。因此,要想提高高等教育质量监测评估效果,就可以应用非结构化数据采集形式,为大量积累下来的PDF、Word、Rtf、Excel和PowerPoint等格式的文档中提取可以描述文档的文字,这些描述性的信息包括文档标题、学校名称、主要内容等等,这样一个过程就是实施了非结构化数据的采集过程。所以非结构化数据的采集是信息进一步处理的基础,有许多开源库己经实现了从非结构化文档中采集关键信息的功能,但针对不同格式的文档,所用的开源库不尽相同。

二、大数据驱动下高等教育质量监测评估关键技术分析

(一)开展分布式储存技术

所谓“分布式存储系统”,就是将数据分散存储在多台独立的设备上。传统存储系统方式通常所采用的都是集中存储服务器,由于传统的集中存储方式不能够满足大规模存储应用的需要,而“分布式网络存储“系统采用可扩展的系统结构,运用多台存储服务器分担存储负荷,以此利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,同时还十分易于扩展。

现阶段高等教育质量监测评估中的数据信息,完全可以通过手机或是平板电脑进行采集,然而采集到的数据类型也具有多样化,比如有视频、图片、文本等内容,如何将这些多样化的数据类型进行有效的储存和管理,已成为当前高等教育质量评估工作首要解决的问题,由于传统的数据管理模式,已经不能满足高可靠性和高并发性的要求,并且以往数据结构较为单一,对于这样多样化的数据类型根本无法进行合理划分,所以,当前处理这些数据的关键就在于如何进行高效储存和高效处理。在大数据发展背景下,大数据基础的储存系统有着较高的容量和IOPS.,并且还支持数据信息的水平扩展,所以应用分布式储存技术不仅能够高速的检索还量化的数据信息,同时还能稳固提高评估数据的容错、拓展及可用性。

(二)并行处理技术

传统处理数据的方式已经无法适应现代化的发展,并且半结构化和非结构化数据的出现也让传统数据处理方式迎来了崭新的机遇和挑战。由于以往计算数据时,需要通过增加很多个处理器作为辅助,以此来保证数据的准确性。但是随着现代化信息技术高速发展而言,分布式储存技术的出现也为数据处理方法进行了相应的创新和优化,在处理数据过程中可以应用大量低廉的计算机进行分布式计算,运用此种方法代替传统集中式的计算方式,这样才能够有效降低计算成本。所以,运用大量低廉的计算机进行分不计算的形式统称为“并行处理技术”[2]

然而当前这项技术中主要有“Spark、Hadoop、Storm”这三项处理框架,并且这三项处理框架在并行处理技术中都担任不同的角色。首先Spark是从文件中读取多个数据节点,然后基于内存进行计算,并且Spark还 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。而Spark是Hadoop的补充,Hadoop MapReduce的通用并行框架,能够将所有数据信息大规模的发送给各个网络节点,更好的实现数据分布式并行处理,所以这一框架更加适合处理离线批量数据。而Storm通常用来处理大型及高速的数据流,利用分布实时计算的形式为Hadoop做好相应的辅助处理。

(三)大数据挖掘技术

所谓“大数据挖掘技术”主要是从大量较为模糊、不完全的数据中提取一些隐含的内容,这些内容可能人们事先不清楚,但是这些信息中有覆盖一些有用的数据知识信息,所以大数据挖掘技术十分适用到分布式和并行化数据处理当中。由于大数据挖掘技术主要是凭借假设检验、人工智能及统计分析进行集成,这其中包含数据处理分析、图像信号处理几数据库计算等内容,将挖掘数据中潜在的知识进行分析和描述,可以运用其中SQL语言进行信息挖掘和处理,并且主要数据挖掘工具有Hive、Pig、HBase,Hive更适合于数据仓库的任务,Hive主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。然而Pig相比Hive分量轻量,因为它主要优势是相比于直接使用Hadoop、Java 、APIs可大幅削减代码量。而HBase主要与Hive和Pig进行组合使用,Hive和Pig能够为HBase提供更为高层的语言支持,促使在应用HBase统计数据就会变得十分容易[3]。例如“Knewton”是世界著名的提供自适应学习方案的公司,这一项目的开发能够实时监控学生的学习过程,可以根据学生的学习情况进行深入分析,并为学生其推荐合适的学习路径及学习资源,以此帮助学生进入最佳的学习状态,真正实现大数据的自适应学习。

结束语

在高等教育中实施质量监测评估已成为推动教育界发展的必然趋势,所以要想更好提升教育质量,就需要掌握质量监测评估关键技术,充分运用分布式储存技术、并行处理技术、大数据挖掘技术针对数据信息进行深入研究和分析,从而找到影响教学效果的关键因素和存在的问题,促使高等教育监测评估能够真正发挥出其价值及作用。

【参考文献】

[1]胡祥青. 基于高等教育质量监测国家数据平台的应用型专业自我评估研究[J]. 景德镇学院学报,2020,35(04):13-16.

[2]白云,初庆东,倪方昳. 高等教育质量监测与评估大数据平台建设的关键问题研究[J]. 教育教学论坛,2020,(02):118-119.

[3]许晓东, 基于大数据的高等教育质量监测与评估关键技术及应用. 湖北省,华中科技大学,2018-04-19.