【大数据学习 | Spark】yarn-client与yarn-cluster的区别

Mephisto.java2024-11-20 15:26

1. yarn的提交命令

bash 复制代码

# yarn的提交命令参数
--master yarn #执行集群
--deploy-mode # 部署模式
--class #指定运行的类
--executor-memory #指定executor的内存
--executor-cores # 指定核数
--num-executors # 直接指定executor的数量
--queue # 指定队列

2. yarn-client模式

该模式下driver端存在于client客户端。

是driver端是独立于 yarn集群的，运算的时候，driver端需要管理executor 中task的运行，所以driver端（客户端）是不能离开的。

driver端在客户端上，所以好调试日志。

当在客户端提交多个spark应用时，它会对客户端造成很大的网络压力，yarn-client模式只适合交互式环境开发。

运行期间不能断开客户端的链接，不然driver端死掉。task任务不能顺利执行。

3. yarn-cluster模式

driver端是在APPMater节点，是在yarn集群里面 ，那运行和监控executor 的任务都是在yarn集群里面。yarn提交任务的客户端是可以离开的。

driver端在yarn集群里面，所以不好调试日志。客户端一经提交可以离开，常用于正常的提交应用，适合生产环境。

集群模式是不支持spark-shell的

bash 复制代码

spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--queue hainiu \
--deploy-mode cluster \
/usr/local/spark/examples/jars/spark-examples_2.12-3.1.2.jar \
20000

4. spark on yarn 提交流程

当spark在yarn上运行时，yarn要拿到 3样：

1）运行用的配置

2）运行要依赖的jar包

默认是SPARK_HOME/jars 目录下的jar包打包

如果想加入其它jar包，可通过 --jars 添加

3）运行任务的jar包（带有代码的jar包）

这3样需要从提交程序端上传到 /user/xxx/.sparkStaging/yarnid/目录下（分布式缓存），然后再分发到运行任务的计算节点。