如何搭建Spark YARN模式的集群
-
节点规划:1个主节点(Master)+ N个工作节点(Worker),需安装Java、Hadoop、Spark。
-
配置YARN:修改Hadoop的 yarn-site.xml ,启用ResourceManager和NodeManager。
Spark配置
- 修改Spark参数
- 编辑 conf/spark-env.sh ,添加:
export HADOOP_CONF_DIR=/path/to/hadoop/conf
export SPARK_MASTER_IP=主节点IP
- 配置 slaves 文件
- 在 conf/slaves 中列出所有Worker节点IP(每行一个)。
启动集群
- 启动Hadoop:
start-dfs.sh # 启动HDFS
start-yarn.sh # 启动YARN
- 启动Spark集群:
./sbin/start-all.sh # 在主节点执行
验证
-
访问YARN界面(默认端口8088),查看Spark应用队列。
-
提交测试任务:
spark-submit --master yarn --class org.apache.spark.examples.SparkPi /path/to/spark-examples.jar 10