Spark On Yarn External Shuffle Service

个人博客地址:Spark On Yarn External Shuffle Service | 一张假钞的真实世界

本文基于spark-3.1.2-bin-without-hadoop.tgz版本,所以spark-3.1.2-yarn-shuffle.jar已经在节点的${SPARK_HOME}/yarn目录下。

HADOOP_CLASSPATH

在所有NodeManager节点上设置环境变量:

复制代码
export HADOOP_CLASSPATH=${SPARK_HOME}/yarn/spark-3.1.2-yarn-shuffle.jar:$HADOOP_CLASSPATH

yarn-site.xml

在yarn-site.xml中添加以下配置,并分发至所有NodeManager节点。

复制代码
<!-- Spark Configuration -->
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>spark_shuffle</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services.spark_shuffle.class</name>
  <value>org.apache.spark.network.yarn.YarnShuffleService</value>
</property>
<property>
  <name>spark.yarn.shuffle.stopOnFailure</name>
  <value>true</value>
</property>

重启NodeManager

复制代码
yarn --daemon stop nodemanager
yarn --daemon start nodemanager

检查

在NodeManager节点上使用以下命令查看7337端口是否已被监听:

复制代码
netstat -ntlp|grep 7337

该端口通过spark.shuffle.service.port指定,默认是7337。

启用

${SPARK_HOME}/conf/spark-defaults.conf中添加以下配置,并分发至所有节点。

复制代码
spark.shuffle.service.enabled true
相关推荐
zdkdchao1 小时前
hbase资源和数据权限控制
大数据·数据库·hbase
归去_来兮2 小时前
知识图谱技术概述
大数据·人工智能·知识图谱
计算机毕设定制辅导-无忧学长2 小时前
Kafka 核心架构与消息模型深度解析(一)
分布式·架构·kafka
一弓虽2 小时前
zookeeper 学习
分布式·学习·zookeeper
yt948323 小时前
如何在IDE中通过Spark操作Hive
ide·hive·spark
青春之我_XP3 小时前
【基于阿里云搭建数据仓库(离线)】Data Studio创建资源与函数
大数据·数据仓库·sql·dataworks·maxcompute·data studio
predisw3 小时前
kafka consumer group rebalance
分布式·kafka
明达技术3 小时前
ProfiNet 分布式 IO 在某污水处理厂的应用
分布式
云道轩3 小时前
llm-d:面向Kubernetes的高性能分布式LLM推理框架
分布式·容器·kubernetes
FakeOccupational4 小时前
【p2p、分布式,区块链笔记 MESH】Bluetooth蓝牙通信拓扑与操作 BR/EDR(经典蓝牙)和 BLE
笔记·分布式·p2p