如何搭建spark yarn 模式的集群集群

晴空下小雨.2025-04-30 14:31

以下是搭建Spark YARN模式集群的一般步骤：

准备工作

确保集群中各节点安装了Java环境，并配置好 JAVA_HOME 环境变量。
各节点间能通过SSH免密登录。
安装并配置好Hadoop集群，YARN作为Hadoop的资源管理器，Spark YARN模式需要依赖Hadoop环境。

下载与安装Spark

在官网下载适合你系统的Spark版本，将下载的压缩包上传到集群的主节点，并解压到指定目录。
配置 SPARK_HOME 环境变量，在 spark-env.sh 文件中配置相关环境参数，如 export SPARK_DIST_CLASSPATH=$(hadoop classpath) ，让Spark能够找到Hadoop的相关类。

配置Spark

进入Spark的配置目录，复制 spark-defaults.conf.template 为 spark-defaults.conf ，并进行编辑，设置 spark.master 为 yarn ， spark.submit.deployMode 为 cluster 等参数。
复制 slaves.template 为 slaves ，在 slaves 文件中列出所有从节点的主机名或IP地址。

分发Spark到从节点

将安装好的Spark目录通过 scp 命令复制到所有从节点的相同目录下。

启动集群

先启动Hadoop集群，包括NameNode、DataNode、ResourceManager、NodeManager等服务。
在主节点上进入Spark的 sbin 目录，执行 start-all.sh 脚本启动Spark集群，会启动Master和Worker等进程。

验证集群

提交一个Spark示例应用程序，如 spark-examples 中的 WordCount 程序，观察任务是否能在YARN集群上正常运行。
通过YARN的Web界面（通常是 http://resourcemanager_ip:8088 ）查看应用程序的运行情况和资源使用情况，也可以通过Spark的Web界面（通常是 http://master_ip:8080 ）查看Spark集群的状态。

上一篇：阿里云 CentOS YUM 源配置指南

下一篇：Django的异步任务队列管理_Celery

热门推荐

01GitHub 镜像站点 02Labelme从安装到标注：零基础完整指南 03安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）04Linux下V2Ray安装配置指南 05Claude Code 2.1.2 升级报错？别折腾了，一行命令搞定 06jdk21下载、安装（Windows、Linux、macOS）07【踩坑笔记】50系显卡适配的 PyTorch 安装 082025-04-03 Latex学习1——本地配置Latex + VScode环境 09Overleaf编译超时，超出免费计划编译时限（已解决）10全球最强模型Grok4，国内已可免费使用！（附教程）