【Spark】Spark为什么比MapReduce更高效？

Spark为什么比MapReduce更高效？

1. 内存计算 vs 磁盘计算

Spark：a.Spark通过RDD将数据存储在内存中，操作可以直接在内存中进行计算。只有在内存不足时，Spark才会将数据写入磁盘，从而减少了磁盘I/O，显著提高了性能。b.同一Stage内所有算子融合为一个函数，Stage的输出结果由这个函数一次性作用在输入数据集而产生。

MapReduce：每个Map和Reduce阶段的中间结果都必须写入磁盘，再从磁盘读取。这会导致磁盘I/O操作非常频繁，降低了性能。每个任务的输出必须先写入HDFS（或本地文件系统），然后再作为输入传递给后续的任务。

2. DAG调度 vs 阶段化调度

Spark：Spark使用DAG（有向无环图）调度来表示整个计算过程，Spark的执行引擎可以基于DAG优化任务调度，自动选择最优的执行策略。这样不仅能减少计算的重复，还能优化中间结果的存储和调度，使得作业的执行更加高效。

MapReduce：MapReduce使用简单的阶段化执行，Map阶段完成后，Reduce阶段才开始。每个Map和Reduce任务都是独立的，并且通过磁盘中间结果进行连接，导致调度效率较低。

3. 线程模型 vs 进程模型

Spark：Spark采用了多线程模型，通过复用线程池中的线程来减少启动和关闭任务的开销。

MapReduce：MapReduce采用多进程模型，每次任务启动都需要重新申请资源，消耗不必要的时间。

4. 数据重用与缓存

Spark ：Spark支持数据的持久化（例如，通过cache和persist方法将数据保存在内存中），允许用户对中间结果进行缓存，并在多个操作中重用。这个特性使得Spark在执行需要重复计算的任务时能够显著提升性能。

MapReduce：在MapReduce中，任务每完成一次，就需要将结果写入磁盘，无法直接重用中间结果。

5. 优化机制

Spark：Spark内置了多种优化机制，如Catalyst优化器和Tungsten执行引擎，提升查询和执行效率。

MapReduce：缺乏类似的高级优化机制。

6. 序列化方式

Spark：Spark可以使用轻量级的Kryo序列化，在数据传输和存储上更高效。

MapReduce：使用Java序列化，占用的内存较大，传输和存储的开销较高。

7. 丰富的操作API

Spark ：Spark提供了丰富的API，支持复杂的转换（如map、filter、reduceByKey等）和行动操作（如collect、count等），并且支持多种数据源（如HDFS、S3、HBase、Cassandra等）。这些API高度抽象化并经过优化，使得Spark的开发更加灵活、高效。

MapReduce：MapReduce仅支持基本的Map和Reduce操作，扩展起来需要很多额外的工作。

8. shuffle排序

Spark：Spark在Shuffle时部分场景可通过Bypass机制跳过排序，更省时。

MapReduce：MapReduce在Shuffle时需要花费大量时间进行排序。

【Spark】Spark为什么比MapReduce更高效？

Spark为什么比MapReduce更高效？

1. 内存计算 vs 磁盘计算

2. DAG调度 vs 阶段化调度

3. 线程模型 vs 进程模型

4. 数据重用与缓存

5. 优化机制

6. 序列化方式

7. 丰富的操作API

8. shuffle排序