Spark和Hadoop之间的区别

1 Hadoop
Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System , HDFS )。 HDFS 有高容错性的特点,并且设计用来部署在低廉的(low-cost )硬件上;而且它提供高吞吐量( high throughput )来访问应用程序的数据,适合那些有着 超大数据集( large data set )的应用程序。 HDFS 放宽了( relax ) POSIX 的要求,可以以流的形式访问(streaming access )文件系统中的数据。
Hadoop 的框架最核心的设计就是: HDFS 和 MapReduce 。 HDFS 为海量的数据提供了存储,而 MapReduce为海量的数据提供了计算。
2 Spark
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark 是 UC Berkeley AMP lab ( 加州大学伯克利分校的AMP 实验室 ) 所开源的类 Hadoop MapReduce 的通用并行框架, Spark 拥有 Hadoop MapReduce所具有的优点;但不同于 MapReduce 的是 ------Job 中间输出结果可以保存在内存中,从而不再需要读写HDFS ,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。
Spark 在某些工作负载方面表现得更加优越,换句话说, Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同, Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。 尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。
3 、数据的存储和处理区别
Hadoop 实质上更多是一个分布式系统基础架构 : 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,同时还会索引和跟踪这些数据,大幅度提升大数据处理和分析效率。Hadoop可以独立完成数据的存储和处理工作,因为其除了提供 HDFS 分布式数据存储功能 ,还 提供 MapReduce 数据处理功能
Spark 是一个专门用来对那些分布式存储的大数据进行处理的工具, 没有提供文件管理系统,自身不会 进行数据的存储 。它必须和其他的分布式文件系统进行集成才能运作。可以选择 Hadoop 的 HDFS, 也可以选择其他平台。
4 、处理速度区别
Hadoop 是磁盘级计算,计算时需要在磁盘中读取数据;其采用的是 MapReduce 的逻辑,把数据进行切片计算用这种方式来处理大量的离线数据。
Spark ,它会在内存中以接近 " 实时 " 的时间完成所有的数据分析。 Spark 的批处理速度比 MapReduce 快近10倍,内存中的数据分析速度则快近 100 倍。比如实时的市场活动,在线产品推荐等需要对流数据进行分析场景就要使用Spark 。
5 、灾难恢复
Hadoop 将每次处理后的数据写入磁盘中,对应对系统错误具有天生优势。
Spark 的数据对象存储在弹性分布式数据集 (RDD:) 中。这些数据对象既可放在内存,也可以放在磁盘,所以RDD 也提供完整的灾难恢复功能。

相关推荐
2501_9436953315 分钟前
高职大数据技术专业,怎么参与开源数据分析项目积累经验?
大数据·数据分析·开源
Dxy12393102161 小时前
别再让 ES 把你拖垮!5 个实战技巧让搜索性能提升 10 倍
大数据·elasticsearch·搜索引擎
2501_943695332 小时前
大专市场调查与统计分析专业,怎么辨别企业招聘的“画饼”岗位?
大数据
七夜zippoe2 小时前
CANN Runtime跨进程通信 共享设备上下文的IPC实现
大数据·cann
威胁猎人2 小时前
【黑产大数据】2025年全球电商业务欺诈风险研究报告
大数据
十月南城2 小时前
Hadoop基础认知——HDFS、YARN、MapReduce在现代体系中的位置与价值
hadoop·hdfs·mapreduce
L543414462 小时前
告别代码堆砌匠厂架构让你的系统吞吐量翻倍提升
大数据·人工智能·架构·自动化·rpa
证榜样呀2 小时前
2026 大专计算机专业必考证书推荐什么
大数据·前端
LLWZAI2 小时前
让朱雀AI检测无法判断的AI公众号文章,当创作者开始与算法「躲猫猫」
大数据·人工智能·深度学习
SickeyLee3 小时前
产品经理案例分析(五):电商产品后台设计:撑起前台体验的 “隐形支柱”
大数据