搭建spark yarn 模式的集群

Eternity......2025-05-10 19:21

搭建Spark YARN模式集群步骤

环境准备

系统：采用Linux系统（如Ubuntu、CentOS ），借助ntp实现节点间时间同步，关闭防火墙及SELinux。

Java：安装JDK 8及以上版本，配置JAVA_HOME环境变量。

Hadoop：部署包含HDFS和YARN的Hadoop集群，配置HADOOP_HOME和PATH环境变量。

安装Spark

下载：从Spark官网下载适配Hadoop版本的二进制包，解压至各节点。

环境变量配置：在~/.bashrc中添加 export SPARK_HOME=/path/to/spark 和 export PATH= $PATH:$ SPARK_HOME/bin:$SPARK_HOME/sbin ，并执行 source ~/.bashrc 刷新配置。

配置Spark on YARN

文件修改：在 $SPARK_HOME/conf 目录下，将spark - env.sh.template复制为spark - env.sh ，slaves.template复制为slaves 。在spark - env.sh中添加 export HADOOP_CONF_DIR=/path/to/hadoop/conf 和 export YARN_CONF_DIR=/path/to/hadoop/conf （指向Hadoop配置目录）；在slaves文件中按每行一个的格式列出所有Worker节点的主机名或IP 。

配置分发：利用scp或rsync等工具，将Spark目录及配置文件复制到所有节点。

启动集群

启动Hadoop：依次执行 start - dfs.sh 启动HDFS ， start - yarn.sh 启动YARN。

启动Spark Worker：在Master节点执行 start - slaves.sh ，通过访问YARN界面（默认端口8088 ）查看节点状态。

验证任务

执行 spark - submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark - examples*.jar 10 提交示例任务测试，可通过YARN界面或相关命令查看任务日志。

注意事项

通过 --executor - memory 和 --executor - cores 参数调整任务资源；若需实现高可用（HA），需配置ZooKeeper和多Master节点。