学科分类
/ 1
11 个结果
  • 简介:

  • 标签:
  • 简介:

  • 标签:
  • 简介:当前的流行系统,Hadoop和火花,当运行反复的大数据应用程序时,因为计算和通讯的低效的重叠,不能完成满足的性能。计算,数据运动,和数据管理的管道为计算系统的当前的分布式的数据起一个关键作用。在这份报纸,我们首先分析开销洗牌在Hadoop的操作并且当运用PageRank工作量时,发出火花,然后建议一条事件驱动管道和在里面记忆洗牌有更好作为DataMPI重复计算和通讯重叠的设计,一个基于MPI的图书馆,为反复的大数据计算。我们的表演评估表演DataMPI重复能为PageRank和K工具在Apache火花上在ApacheHadoop,和2X3X加速上完成9X21X加速。

  • 标签: 数据计算 I迭代 PAGERANK MPI Apache 计算系统
  • 简介:Researchandapplicationofbigdatamining,atpresent,isahotissue.Thispaperbrieflyintroducesthebasicideasofbigdataresearch,analysesthenecessityofbigdataapplicationinearthquakeprecursorobservation,andprobescertainissuesandsolutionswhenapplyingthistechnologytoworkintheseismic-relateddomain.Bydoingso,wehopeitcanpromotetheinnovativeuseofbigdatainearthquakeprecursorobservationdataanalysis.

  • 标签: 地震前兆观测 数据应用 数据挖掘 数据分析 地震相
  • 简介:处理的大数据正在成为数据中心计算的固执己见者部分。然而,最近的研究显示了大数据工作量不能充分利用现代记忆系统。我们发现处理的大数据的戏剧的无效从缓存失误的庞大的数量和看情况的存储器存取的货摊。在这篇论文,我们介绍二优化处理这些问题。第一是slice-and-merge策略,它减少种类过程的缓存失误率。第二优化是direct-memory-access,它改革在钥匙/值的存储使用的数据结构。这些优化被评估与微基准并且真实世界的基准HiBench。结果我们的微基准清楚地以硬件事件计数表明我们的优化的有效性;并且HiBench的另外的结果显示出1.21X一般水准加速在上申请级。两结果说明那小心的硬件/软件合作设计将改进大数据处理的存储器效率。我们的工作已经集成于为ApacheHadoop的Intel分发。

  • 标签: 数据处理 内存系统 直接存储器访问 基准测试 Apache 高速缓存
  • 简介:象建议,当模特儿的话题,和医药诊断一样的许多机器学习和数据采矿(MLDM)问题能在由两部组成的图上作为计算被建模。然而,很分布式的图平行系统对在这的唯一的特征忘却图和存在的联机图划分算法通常在网络通讯上象重要压力一样引起顶点的过多的复制。这篇文章识别为分布式的MLDM处理划分由两部组成的图的挑战和机会并且建议BiGraph,划分算法的一套由两部组成面向的图。BiGraph力量观察象数据在导出一套最佳的图的顶点的二个子集之间缩放划分导致最小的顶点复制和网络通讯的算法的顶点,区别计算负担和imbalanced的扭曲的分发那样。BiGraph在PowerGraph上被实现了并且被显示有表演增加直到17.75X(从1.16X)为四个典型MLDM算法,由于减少直到80%顶点复制,并且直到96%网络交通。

  • 标签: 分布式图形 机器学习 分区 分割算法 网络通信 计算负荷
  • 简介:<正>PartOneIntroductionIn1967,HerbertPaulGricefirstproposedthenotionof"CooperativePrinciple".Heclaimedthatbothpartsshouldsticktoaseriesofprinciplesinordertoachievesuccessfulcommunication.(HeZiran,ChenXinren,2004).

  • 标签: claimed HERBERT STICK notion HUMOR PRAGMATIC