基于Spark的数据分析

在线阅读 下载PDF 导出详情
摘要 摘要:Hadoop & Spark系统使用VMware workstation Pro 来部署安装相关虚拟机,使用xshell来进行对虚拟机的命令行操作,虚拟机操作系统使用Linux centOS 7。相关代码使用Scala编程语言编写,开发工具IDE使用IntelliJ IDEA开发。本次实验主要是旨在搭建一个成熟的、高效的、快速的大数据计算集群并利用该系统实现大数据领域常见的数据分析操作。以此来实现Hadoop 与 Spark 的融合,利用Hadoop HDFS的分块存储的优势为大数据系统提供底层的存储服务,利用Spark 的内存计算快速、高效的优势为大数据系统提供计算服务,这样就弥补了Hadoop系统计算效率低和spark系统无法提供存储服务的两大弊端,实现技术上的优势互补。
出处 《科技新时代》 2022年10期
分类 [][]
出版日期 2022年10月11日(中国期刊网平台首次上网日期,不代表论文的发表时间)
  • 相关文献