高校数据分析实践教学探索与研究

(整期优先)网络出版时间:2021-10-21
/ 2

高校数据分析实践教学探索与研究

张聪

哈尔滨信息工程学院 大数据分析实验室 黑龙江 哈尔滨 150025

[摘要]数据科学与大数据技术是响应、落实国家大数据战略和国家急需专业技术人才培养需求而开设的新专业。专业发展及毕业生就业前景广阔,就业岗位主要从事大数据的采集、存储、可视化处理、分析预测、设计开发、应用开发等工作。高等教育如何将学生培养成企业所需要的技术人才显得尤为重要。

[关键词]数据分析;教学方法


[作者简介]张聪(1988-),男,黑龙江哈尔滨人,讲师,学士,从事数据科学研究。


随着移动互联时代的到来,特别是虚拟现实、人工智能、物联网和车联网等科学技术的不断发展,使得当今世界对信息技术的依赖程度日渐加深,每天都会产生和存储海量的数据。数据来源多种多样,除了生产过程中的自动检测系统、传感器和科学仪器会产生大量的数据外,日常生活中的网上购物、预订车票、发微信、写微博等,也都会产生大量的数据。处理这些海量数据,并从中提取出有价值的信息的过程就是数据分析。数据分析是指用适当的统计分析方法对收集来的大量原始数据进行分析,为提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的目的是提取不易推断的信息并加以分析,一旦理解了这些信息,就能够对产生数据的系统的运行机制进行研究,从而对系统可能的响应和演变做出预测。

数据分析的教学过程可以用以下几步来描述:转换和处理原始数据,用可视化方式呈现数据,建模并预测,其中每一步所起的作用对后面的步骤而言都是至关重要的。因此,数据分析可以概括为问题定数据采集、数据预处理、数据探索、数据可视化、预测模型的创建和选择、模型评估和部署几个阶段。

  1. 模拟需求

结合实际行业以及数据背景,首先需要明确数据分析的目标,即数据分析教学要研究的主要问题和预期模型

  1. 数据采集

经过需求分析阶段后,在分析数据之前,首先要做的就是获取数据。数据选取一定要本着创建预测模型的目的,数据选取对数据分析的成功起着至关重要的作用。所采集的样本数据应尽可能多地反映实际情况,即能够描述系统对来自现实刺激的反应。如果选取了不当的数据,或者对不能很好地代表系统的数据集进行数据分析,得到的模型将会偏离作为研究对象的系统。数据获取方式可以采用到特定的网站上去下载一些科研机构、企业、政府开放的数据集。或者采用爬虫技术,去收集互联网上的数据。

  1. 数据预处理

通过数据采集获得的数据大部分是不完整、不一致的“脏数据”,无法直接进行数据分析,若直接用会使分析结果差强人意。数据预处理就是使数据采集阶段中获得的原始数据,经过数据清洗和数据转换后,转变为“干净”的数据。使用这些“干净”的数据,才能获得更加精确的分析结果。数据清洗是对数据重新审查和校验的过程,目的是删除重复信息、纠正存在的错误,检查数据致性,处理无效值和缺失值等。例如,空气质量数据中有许多天的数据由于设备的原因没有监测到,有些数据是重复记录,还有一-些数据是由于设备故障造成监测数据无效。那么,对于这些残缺的数据,是直接删除,还是用临近的值去补全,这些都是需要考虑的问题。数据转换是将数据从一种表示形式转变为另一种表现形式的过程。如日期格式转换,数据计量单位转换等。另外,还可以利用基本描述统计量的计算和基本统计图形的绘制来发现缺失值和异常值。

  1. 数据探索和可视化

数据探索的本质是从图形或统计数字中搜寻数据,以发现数据中的模式、联系和关系。数据可视化是获得信息的最佳方式之一。通过可视化呈现数据的方式,不仅能快速抓住要点信息,而且,还可以揭示通过简单统计不能观察到的模式和结论。数据探索包括初步的数据检验;确定数据类型,即是类别型数据,还是数值型数据;选择出最适合的定义模型的数据分析方法。通常,数据分析需要总结与数据分析相关的各种表述。在总结过程中,在不损失重要信息的情况将数据浓缩为对系统的解释。聚类这种数据分析方法用来找出由共同的属性所组成的组。数据分析的另外一个重要步骤是关注识别数据中的关系、趋势和异常现象。为了找到这些信息,需要使用合适的工具,同时,还要分析可视化后得到的图像。其他数据挖掘方法,如决策树或关联规则挖掘,则是自动从数据中抽取重要的事实或规则。这些方法可以与数据可视化配合使用,以便发现数据之间存在的各种关系。

  1. 预测模型的创建和选择

预测模型是指用于预测的、用数学语言或公式来描述的事物间的数量关系。它在一定程度上揭示了事物间的内在规律性,预测时把它作为计算预测值的直接依据。在数据分析的预测模型的创建和选择阶段,要创建或选择合适的统计模型来预测某一个结果的概率。具体来说,模型主要有以下两个方面的用途。
①使用回归模型来预测系统所产生数据的值。虽称副望一百业
②使用分类模型或聚类模型为新数据分类。
事实上,根据输出结果的类型,模型可分为以下3种。


①分类模型:模型输出结果为类别型数据。

②回归模型:模型输出结果为数值型数据。

③聚类模型:模型输出结果为描述型数据。
生成这些模型的简单方法包括线性回归、逻辑回归、分类、回归树和K-近邻算法。但是分析方法有许多种,每一种都有各自擅长处理和分析的特定的数据类型。每一种方法都能生成一种特定的模型,选取哪种方法与模型的自身特点有关。

  1. 模型评估

模型评估阶段也就是测试阶段,该阶段是从整个数据分析的原始数据集中抽取出一部分用作验证集,并用验证集去评估使用先前采集的数据所创建的模型是否有效。一般来说,用于建模的数据称为训练集,用于验证模型的数据称为验证集。通过比较模型和实际系统的输出结果,就能评估错误率。使用不同的测试集,可以得出模型的有效性区间。实事上,预测结果只在一定范围内才有效,或因预测值取值范围而异,预测值和有效值之间存在不同层次的对应关系。模型评估过程,不仅可以得到模型确切的有效程度,还可以比较出它与其他模型的不同之处。模型评估的技巧有许多,其中最著名的是交叉验证。它的基本操作是将训练集分成不同部分,每部分轮流作为验证集,同时其余部分用作训练集。通过这种迭代的方式,可以获得最佳模型。

  1. 部署应用

数据分析的最后一步是部署, 旨在展示结果,也就是给出数据分析的结论。若应用场景为商业领域,部署过程将分析结果转换为对购买数据分析服务的客户有益的方案。若应用场景为科技领域,则将成果转换为设计方案或科技出版物。也就是说,部署过程基本上就是把数据分析得到的结果应用到实践中去。数据分析的结果有多种部署方案,通常这个阶段也称为数据报告的撰写。

在实数据分析践教学中通过以上几个教学环节,培养学生熟练掌握教育领域大数据采集、整理、分析、发掘、展现、应用管理等技术,具备教育大数据工程项目的设计开发与应用能力,能在相关行业从事大数据的采集、存储、可视化处理、分析预测、设计开发、应用管理等工作的应用型、复合型高级专门人才。

[参考文献]

[1]杨洪;李知遥;张志强;;数据科学与大数据技术专业实践能力培养体系的探索与实践[J];成都大学学报(社会科学版);2018年03期

[2] 欧卫华;夏道勋;张仁津;数据科学与大数据技术”专业实践教学体系构建研究[J];软件导刊;2018年05期

[3]金礼模;;大数据技术在高校教育中的应用[J];无线互联科技;2017年18期