搭建spark yarn 模式的集群

搭建Spark YARN模式集群步骤

  1. 环境准备

系统:采用Linux系统(如Ubuntu、CentOS ),借助ntp实现节点间时间同步,关闭防火墙及SELinux。

Java:安装JDK 8及以上版本,配置JAVA_HOME环境变量。

Hadoop:部署包含HDFS和YARN的Hadoop集群,配置HADOOP_HOME和PATH环境变量。

  1. 安装Spark

下载:从Spark官网下载适配Hadoop版本的二进制包,解压至各节点。

环境变量配置:在~/.bashrc中添加 export SPARK_HOME=/path/to/spark 和 export PATH=PATH:SPARK_HOME/bin:$SPARK_HOME/sbin ,并执行 source ~/.bashrc 刷新配置。

  1. 配置Spark on YARN

文件修改:在 $SPARK_HOME/conf 目录下,将spark - env.sh.template复制为spark - env.sh ,slaves.template复制为slaves 。在spark - env.sh中添加 export HADOOP_CONF_DIR=/path/to/hadoop/conf 和 export YARN_CONF_DIR=/path/to/hadoop/conf (指向Hadoop配置目录);在slaves文件中按每行一个的格式列出所有Worker节点的主机名或IP 。

配置分发:利用scp或rsync等工具,将Spark目录及配置文件复制到所有节点。

  1. 启动集群

启动Hadoop:依次执行 start - dfs.sh 启动HDFS , start - yarn.sh 启动YARN。

启动Spark Worker:在Master节点执行 start - slaves.sh ,通过访问YARN界面(默认端口8088 )查看节点状态。

  1. 验证任务

执行 spark - submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark - examples*.jar 10 提交示例任务测试,可通过YARN界面或相关命令查看任务日志。

注意事项

通过 --executor - memory 和 --executor - cores 参数调整任务资源;若需实现高可用(HA) ,需配置ZooKeeper和多Master节点。

相关推荐
SelectDB13 小时前
Apache Doris Python UDF:让 SQL 直接调用 Python 生态,支撑 Agent 时代复杂业务逻辑
大数据·数据库·python
ApacheSeaTunnel16 小时前
当多表数据涌入,Apache SeaTunnel 如何巧妙化解主键冲突?
大数据·开源·数据集成·seatunnel·技术分享·数据同步
大大大大晴天4 天前
Hudi Metadata Table 与 Hive Sync (HMS)怎么选?
大数据
手可摘星辰7774 天前
一次线上FlinkCDC异常排查复盘
大数据·flink
大大大大晴天4 天前
Hudi技术内幕:Metadata Table原理与实践
大数据
大大大大晴天5 天前
Hudi技术内幕:深入解析Index索引机制
大数据
阿里云大数据AI技术5 天前
Flink Forward Asia 2026 深圳启幕:Agentic Streaming for AI,开启实时智能新范式
大数据·flink
SelectDB6 天前
阶跃星辰基于 SelectDB 构建 PB 级 Agent 可观测平台
大数据·数据库·aigc
大大大大晴天9 天前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB10 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生