Hadoop和Spark的区别

Hadoop

  • 表达能力有限。
  • 磁盘IO开销大,延迟度高。
  • 任务和任务之间的衔接涉及IO开销。
  • 前一个任务完成之前其他任务无法完成,难以胜任复杂、多阶段的计算任务。

Spark

  • Spark模型是对Mapreduce模型的改进,可以说没有HDFS、Mapreduce就没有Spark。

  • Spark可以使用Yarn作为他的资源管理器,并且可以处理HDFS数据。这对于已经部署了Hadoop集群的用户特别重要,因为他们不需要任何的数据迁移就可以使用到spark的强大功能了。

相关推荐
睎zyl2 小时前
Spark自定义分区器-基础
大数据·分布式·spark
巨龙之路2 小时前
【TDengine源码阅读】DLL_EXPORT
大数据·时序数据库·tdengine
元6333 小时前
搭建spark-local模式
大数据·spark
巨龙之路3 小时前
TDengine编译成功后的bin目录下的文件的作用
大数据·时序数据库·tdengine
莫叫石榴姐4 小时前
大模型在数据分析领域的研究综述
大数据·数据挖掘·数据分析
百锦再4 小时前
大数据技术的主要方向及其应用详解
大数据·linux·网络·python·django·pygame
巨龙之路5 小时前
【TDengine源码阅读】#if defined(__APPLE__)
大数据·时序数据库·tdengine
巨龙之路6 小时前
【TDengine源码阅读】TAOS_DEF_ERROR_CODE(mod, code)
大数据·时序数据库·tdengine
钊兵6 小时前
hivesql是什么数据库?
大数据·hive
元6336 小时前
运行Spark程序-在shell中运行
spark