首页 > 《科技新时代》 > 2022年10期 > 基于Spark的数据分析

基于Spark的数据分析

在线阅读下载PDF 导出详情

摘要摘要：Hadoop & Spark系统使用VMware workstation Pro 来部署安装相关虚拟机，使用xshell来进行对虚拟机的命令行操作，虚拟机操作系统使用Linux centOS 7。相关代码使用Scala编程语言编写，开发工具IDE使用IntelliJ IDEA开发。本次实验主要是旨在搭建一个成熟的、高效的、快速的大数据计算集群并利用该系统实现大数据领域常见的数据分析操作。以此来实现Hadoop 与 Spark 的融合，利用Hadoop HDFS的分块存储的优势为大数据系统提供底层的存储服务，利用Spark 的内存计算快速、高效的优势为大数据系统提供计算服务，这样就弥补了Hadoop系统计算效率低和spark系统无法提供存储服务的两大弊端，实现技术上的优势互补。

DOI wjvyqwvkj7/6501050

作者王昌鹏

机构地区长江大学地球科学学院武汉 430000

出处《科技新时代》 2022年10期

关键词大数据 Hadoop Spark 大数据系统

分类 [][]

出版日期 2022年10月11日（中国期刊网平台首次上网日期，不代表论文的发表时间）