Spark有两种常见的提交方式：client 模式和 cluster 模式对机器 CPU 的影响

墨卿风竹2023-09-07 14:19

Spark有两种常见的提交方式：client 模式和 cluster 模式。这两种方式对机器 CPU 的影响略有不同

，请参考以下说明

Client 模式：

在 Client 模式下，Spark Driver 运行在提交任务的客户端节点上（即运行 spark-submit 命令的机器）。Driver 负责执行应用程序的调度和监控，而 Executor 则在集群的工作节点上启动和运行任务。

在 Client 模式中，机器的 CPU 负担主要集中在 Driver 进程上，因为 Driver 负责调度和监控整个应用程序的运行。

Client 模式适用于开发、调试和交互式操作，对于小型数据集和快速迭代的任务有效。

Cluster 模式：

在 Cluster 模式下，Spark Driver 运行在集群中的某个节点上，并且与其他 Executor 并行运行。客户端只负责提交应用程序，并不参与应用程序的实际运行。

在 Cluster 模式中，机器的 CPU 负担在整个集群中分布，因为 Driver 和 Executor 都在各自的节点上运行。

Cluster 模式适用于生产环境，用于处理大规模数据集和长时间运行的任务。

总体而言，Client 模式下对机器的 CPU 影响较大，因为 Driver 运行在客户端节点上，而 Cluster 模式下对机器的 CPU 影响相对均匀，因为任务在整个集群中运行。在选择提交模式时，需考虑任务的规模、数据量和计算资源情况，以及是否需要实时监控和交互式操作等因素。