高校大数据云实验平台构建研究与探讨

(整期优先)网络出版时间:2022-11-16
/ 2

高校大数据云实验平台构建研究与探讨

郝聚涛

上海电机学院,电子信息学院

摘要:数据科学与大数据技术是一门实践性很强的专业,实验设置和实验平台建设是专业建设的重要组成部分,对专业发展和学生培养质量提升起着至关重要作用。上海电机学院数据科学与大数据技术专业,立足学校定位,通过分析课程设置,利用私有云平台建设大数据云实验平台。经过一届学生的使用表明,该平台不但对理论教学进行了有效支撑,还培养了学生获取新知识的能力。

关键词:数据科学与大数据技术 云计算 实验教学

1.引言

2015年,十八届五中全会首次提出“国家大数据战略”。新兴行业的兴起,需要大量专业技术人才,2020年5月6日,人力资源和社会保障部发布《新职业—大数据工程技术人员就业景气现状分析报告》,报告显示:2025年前大数据人才需求仍将保持30%-40%的增速,需求总量在2000万人左右[1]。为应对大数据行业发展对人才需求的缺口,2016年我国高校设置“数据科学与大数据技术”本科专业,专业代码为 080910T。2017年上海电机学院获批“数据科学与大数据技术”本科专业。上海电机学院是一所面向先进制造业及现代服务业,以工学为主,经济学、管理学、文学、艺术学、理学等学科协调发展的普通高等院校。办学类型定位为“坚持举办高等技术教育,培养高等技术应用型人才”。

数据科学与大数据技术是一门实践性很强的新兴交叉复合型学科,新专业成立之初,迫切需要专业的大数据实验平台。否则不仅会影响本专业课程体系的设置,还会降低毕业生的质量,造成大数据专业人才培养和企业需求的脱节[2-3]。因此建设专业大数据实验教学平台是非常迫切解决的问题。

2.大数据专业课程设置

上海电机学院数据科学与大数据专业结合学校本身定位,对于专业学生的能力培养目标为掌握从事本专业的基础理论知识和应用技能,能够在智能制造、互联网、软件及信息技术服务行业从事数据获取与感知、存储与管理、分析与处理等工作。专业核心课程设置包括数据科学与大数据技术导论、Python程序设计、大数据分析统计基础、机器学习、Hadoop编程开发、数据仓库项目管理、数据存储优化、工业大数据架构与应用、大数据技术基础综合实验、大数据与领域建模综合实验。涵盖了大数据平台规划、大数据技术应用、大数据运维与管理和大数据分析与可视化四大能力模块。 因此大数据实验平台需要能够支撑专业课程设置。

3.大数据云实验平台规划与建设

学院在专业成立之初,购买了一套大数据云实验平台,这套云数据平台主要针对Hadoop 2.X版本安装,MapReduce编程实践。随着大数据各类组件版本不断发展和课程体系的变化,已经不能满足实践教学的需求。 通过对于培养计划和课程设置的解读以及各任课老师的调研,确定大数据云实验平台的功能规划如图表1所示。

表1. 实验平台能力与支撑课程

平台能力

支撑课程

Linux基本操作

Hadoop编程开发 数据仓库与数据挖掘

数据收集

数据仓库与数据挖掘 工业大数据架构与应用

大数据采集与预处理技术

非关系数据存储

NOSQL数据库 分布式数据库 非结构化数据挖掘

分布式计算引擎

Hadoop编程开发 Spark高性能计算 流式数据管理

OLAP数据分析

数据仓库与数据挖掘 大数据分析统计基础

工作流调度管理

大数据分布式技术 工业大数据开发技术

通过实验平台能力可见,基本涵盖了当前Hadoop生态的所有主流组件。如果将实验平台设计成涵盖所有能力的一体化平台,对于硬件要求非常高、硬件设备投入很大,而且不便于实验平台的管理和维护。因此经过各种方案比对,我们采取了利用学院已有的私有云环境,来部署多个不同功能的课程模板,每个模板支撑部分课程,每次上课自动部署实验环境,下课释放资源,尽量降低资源需求,课程模板与实验组件对应关系如表2所示。

经过几个学期的验证,该实验平台满足绝大部分课程实验需求。对于少数不能满足的情况,任课老师可以在现有模板基础上增加新的组件,构建课程专属模板。

表2 课程实验模板组件对应关系

课程模板

主要组件

支撑课程

Hadoop基础模板

MapReduce、HDFS、YARN、Hive

信息类大数据技术通用课程

大数据编程模板

MapReduce、HDFS、Spark、Spark MLLib

Hadoop编程、机器学习、数据仓库与数据挖掘、Spark高性能技术

大数据存储模板

HDFS、Hive、HBASE、Kudu

NoSQL数据库、非结构化数据挖掘

数据分析模板

Kylin、Impala,Hive

数据仓库与数据挖掘、大数据分析统计基础、数据可视化

数据收集模板

Flume、Sqoop、kafka

大数据分布式技术、数据收集与预处理

工作流管理

Oozie、Azkaban

大数据分布式技术、工业大数据开发技术

4.总结

上海电机学院2018年招收第一届数据科学与大数据技术专业本科生,今年第一届毕业生已经顺利就业,从事大数据相关职业学生占比80%。用人企业对于我校大数据专业学生的动手能力普遍认可。未来我们也会持续改进大数据实验教学体系,使之在不断更新跟上最新大数据技术发展的同时,培养学生获取新知识的能力,培养大数据创新型人才。

5.参考文献

[1] 人力资源和社会保障部.新工科大数据工程技术人员就业景气现状分析报告[EB/OL]. (2020-08-26).http://www.gov.cn/xinwen/202008/26/content_5537486.htm.

[2]张敏、边胜琴、郭茜、王小妹、崔晓龙. 大数据技术实验教学的研究与探讨[J]. 中国现代教育装备, 2020(17):4.

[3]吴湘宁, 彭建怡, 罗勋鹤,等. 高校大数据实验室及实验体系的规划与建设[J]. 计算机系统应用, 2020(11):10.