学科分类
/ 1
13 个结果
  • 简介:【摘要】:随着数据的快速增长,原有的数据存储和分析机制已无法满足用户的需求,为了满足大数据的处理需求,引入了Hadoop处理框架。Hadoop作为分布式计算平台能够处理和分析海量数据,其核心组件HDFS是一个易扩展的分布式文件系统,部署在低成本机器上,且具有高度容错能力,另一核心组件MapReduce可用于大数据的并行处理。该文首先对Hadoop的由来进行了简要介绍,然后对Hadoop在Linux及Windows环境下如何搭建部署进行了详细说明。

  • 标签: 大数据 Hadoop 环境部署
  • 简介:Hadoop可以部署在大量由廉价设备组成的集群上,构成高可靠性和良好扩展性的分布式云计算系统.使用虚拟化软件VMware在实验计算机中虚拟出若干台虚拟机,组成集群,在此基础上部署Hadoop系统,然后在Windows系统中使用Eclipse进行开发环境的搭建,并运行了WordCount实例.

  • 标签: 云计算 HADOOP 虚拟化
  • 简介:Hadoop是新一代并行分布处理“大数据”的架构和技术.本文主要讨论了Hadoop的分布式系统架构方式,并重点描述了分布式文件系统HDFS、分布式并行计算MapReduce及其生态系统等实现原理和运行机制.

  • 标签: HADOOP 分布式系统 HDFS MAPREDUCE 生态系统
  • 简介:摘要:为认真贯彻习近平总书记提出的“实施国家大数据战略,加快建设数字中国”战略思想,认真落实大数据技术人才培养工作,学院在近年开设了云计算技术与应用专业,并设置了以Hadoop大数据技术课程。本文将从学情分析入手,并对整体教学设计、课堂教学实施与成效、教学反思与诊改等方面对课程规划与设计进行详细论述。

  • 标签: Hadoop 大数据 课堂实施 课程规划
  • 简介:云计算的出现为海量教学资源的分布存储与管理提供了新的思路与技术。为满足教育教学资源共享建设的低成本、高可靠的弹性访问与服务需求,在现有Hadoop云实现技术的框架下,提出了分布式存储、访问与管理的云资源共享平台,并设计了相关的云平台资源存储结构和Web应用程序,为现代教育教学资源共享平台的构建提供了思路。

  • 标签: 教学资源 云计算 HADOOP HDFS MAPREDUCE
  • 简介:随着互联网信息技术的突飞猛进发展,加上移动智能手机、PC电脑、传感器的广泛使用,全球数据信息总量正呈现几何倍的增长态势,并且数据结构向着半结构化、非结构化方向发展,传统数据处理技术已经远不能满足现有需要。在此背景下,Hadoop作为应用最广泛的一种开源计算平台应运而生。文章通过介绍Hadoop平台的构架与原理,对Hadoop平台的大数据处理能力进行分析,通过与传统数据处理方式的比较,对大数据下Hadoop平台的未来进行了展望。

  • 标签: HADOOP平台 大数据 数据处理 HDFS MAPREDUCE
  • 简介:摘要:随着互联网的普及,购物网站作为一种新兴的电子商务模式,已经快速发展成为最具潜力和前景的产业之一。在这一背景下,购物网站的搭建者对用户的行为进行分析和挖掘,已经成为关键的竞争因素之一。然而,传统的数据处理技术已经无法满足大规模数据的处理需求。本文通过Hadoop分布式框架搭建数据分析平台,运用DBeaver技术结合HDFS、Hive数据仓库等对用户的一系列购物行为进行分析,为电子商务企业提供有用的参考和指导。

  • 标签: Hadoop  购物网站 用户行为
  • 简介:为实现高效地存储和管理海量、无序和异构性的数据信息,在分析网络数据存储体系结构和网络数据特点的基础上,设计一种基于Hadoop技术的分布式海量网络数据存储系统平台。该系统平台包含业务接口层、数据服务层和数据库数据访问层3层结构,通过使用linux集群技术、分布式并行数据处理技术、存储技术,可以实现高效率、低成本的存储海量数据功能,具有良好的安全性、经济性、易用性和可扩展性。

  • 标签: 海量数据 HADOOP 分布式存储 并行计算
  • 简介:为了实现电梯安全事故的预警预报,研究了电梯安全大数据的挖掘方法.以电梯安全远程监管系统数据库中的电梯状态数据、基础数据、日常维保数据、故障数据以及违章数据作为数据源构建电梯安全大数据平台,包括数据采集模块、预处理模块、数据挖掘模块和数据展示模块.着重研究了改进的K-Means聚类算法和Apriori关联算法.实验表明:两种改进算法的加速比与可扩展性更好.利用聚类算法分析了各小区、不同品牌电梯的电梯故障情况以及各维保公司的故障修复率,利用关联算法分析了各小区及不同品牌电梯的特定频发故障,对电梯安全管理具有指导意义.

  • 标签: 电梯安全 数据挖掘 HADOOP平台 K-MEANS算法 APRIORI算法
  • 简介:摘要:随着生活水平的不断提高,青少年的身体发育水平有了显着提高。青少年的身体机能和健康发育相对缓慢,甚至出现衰退。本文提出了一种基于大数据的新型数据挖掘算法,用于监测青少年学生的身体健康,以克服这一问题,增强青少年的身体素质和心理健康。鉴于大数据技术在促进青少年健康发展、促进个人健康权益方面具有积极的现实意义,本文将实现常用的数据挖掘算法和Hadoop/Spark大数据处理。不同平台上的算法通过比较运行时间验证了大数据平台对数据挖掘算法具有良好的计算性能。目前的工作将证明是一个完整的身体健康数据管理系统,有效地保存、处理和分析青少年的身体检查数据。

  • 标签: 大数据 计算机技术 青少年 健康监测
  • 简介:针对Hadoop存在的不足,提出了利用分布式数据库来模拟共享存储空间的解决方案。并对DBIK-means聚类算法做了并行化设计和实验分析,验证了DBIK-means聚类算法在处理大数据时,能够获得较好的加速比。

  • 标签: HADOOP DBIK-means聚类算法 并行化
  • 简介:摘要:我校传统的课程考核综合成绩为:平时成绩(30%)+期末考查成绩(70%),这种考核对新工科要求的问题分析能力、设计/开发能力以及素养的考核评价等方面的考核不够全面和完整。本文提出从多方面来对本课程进行考核,即:基础知识学习过程考核(30%)+项目搭建过程考核(20%)+数据分析项目完成考核(30%)+期末终结考核(20%)的考核方式,符合新工科建设要求,符合工程教育目标和大数据专业毕业要求,符合以学生为中心的课程考核评价体系。

  • 标签: