Spark On Yarn External Shuffle Service

个人博客地址:Spark On Yarn External Shuffle Service | 一张假钞的真实世界

本文基于spark-3.1.2-bin-without-hadoop.tgz版本,所以spark-3.1.2-yarn-shuffle.jar已经在节点的${SPARK_HOME}/yarn目录下。

HADOOP_CLASSPATH

在所有NodeManager节点上设置环境变量:

复制代码
export HADOOP_CLASSPATH=${SPARK_HOME}/yarn/spark-3.1.2-yarn-shuffle.jar:$HADOOP_CLASSPATH

yarn-site.xml

在yarn-site.xml中添加以下配置,并分发至所有NodeManager节点。

复制代码
<!-- Spark Configuration -->
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>spark_shuffle</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services.spark_shuffle.class</name>
  <value>org.apache.spark.network.yarn.YarnShuffleService</value>
</property>
<property>
  <name>spark.yarn.shuffle.stopOnFailure</name>
  <value>true</value>
</property>

重启NodeManager

复制代码
yarn --daemon stop nodemanager
yarn --daemon start nodemanager

检查

在NodeManager节点上使用以下命令查看7337端口是否已被监听:

复制代码
netstat -ntlp|grep 7337

该端口通过spark.shuffle.service.port指定,默认是7337。

启用

${SPARK_HOME}/conf/spark-defaults.conf中添加以下配置,并分发至所有节点。

复制代码
spark.shuffle.service.enabled true
相关推荐
caihuayuan47 小时前
Linux环境部署iview-admin项目
java·大数据·sql·spring·课程设计
电脑玩家粉色男孩7 小时前
4、RabbitMQ的七种工作模式介绍
分布式·中间件·rabbitmq
浪前7 小时前
【项目篇之统一内存操作】仿照RabbitMQ模拟实现消息队列
java·分布式·rabbitmq·ruby
王哥儿聊AI9 小时前
GenCLS++:通过联合优化SFT和RL,提升生成式大模型的分类效果
大数据·人工智能·深度学习·算法·机器学习·自然语言处理
KaiwuDB9 小时前
KaiwuDB X 遨博智能 | 构建智能产线监测管理新系统
大数据·数据库·kaiwudb·分布式多模数据库
科技热点圈9 小时前
大力探索“AI·Life爱生活”项目峰会暨战略投资签约仪式成功举办
大数据·人工智能·生活
苏小夕夕10 小时前
大数据应用开发和项目实战-Seaborn
大数据·前端
AIGC方案11 小时前
基于Hive + Spark离线数仓大数据实战项目(视频+课件+代码+资料+笔记)
大数据·hive·spark
yin13813 小时前
《可信数据空间 技术架构》技术文件正式发布
大数据·架构
IT成长日记14 小时前
【Hive入门】Hive与Spark SQL集成:混合计算实践指南
hive·sql·spark·混合计算