搭建spark yarn 模式的集群

搭建Spark YARN模式集群步骤

  1. 环境准备

系统:采用Linux系统(如Ubuntu、CentOS ),借助ntp实现节点间时间同步,关闭防火墙及SELinux。

Java:安装JDK 8及以上版本,配置JAVA_HOME环境变量。

Hadoop:部署包含HDFS和YARN的Hadoop集群,配置HADOOP_HOME和PATH环境变量。

  1. 安装Spark

下载:从Spark官网下载适配Hadoop版本的二进制包,解压至各节点。

环境变量配置:在~/.bashrc中添加 export SPARK_HOME=/path/to/spark 和 export PATH=PATH:SPARK_HOME/bin:$SPARK_HOME/sbin ,并执行 source ~/.bashrc 刷新配置。

  1. 配置Spark on YARN

文件修改:在 $SPARK_HOME/conf 目录下,将spark - env.sh.template复制为spark - env.sh ,slaves.template复制为slaves 。在spark - env.sh中添加 export HADOOP_CONF_DIR=/path/to/hadoop/conf 和 export YARN_CONF_DIR=/path/to/hadoop/conf (指向Hadoop配置目录);在slaves文件中按每行一个的格式列出所有Worker节点的主机名或IP 。

配置分发:利用scp或rsync等工具,将Spark目录及配置文件复制到所有节点。

  1. 启动集群

启动Hadoop:依次执行 start - dfs.sh 启动HDFS , start - yarn.sh 启动YARN。

启动Spark Worker:在Master节点执行 start - slaves.sh ,通过访问YARN界面(默认端口8088 )查看节点状态。

  1. 验证任务

执行 spark - submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark - examples*.jar 10 提交示例任务测试,可通过YARN界面或相关命令查看任务日志。

注意事项

通过 --executor - memory 和 --executor - cores 参数调整任务资源;若需实现高可用(HA) ,需配置ZooKeeper和多Master节点。

相关推荐
zskj_zhyl1 小时前
数字康养新范式:七彩喜平台重构智慧养老生态的深度实践
大数据·人工智能·物联网
白码低代码1 小时前
橡胶制品行业质检管理的痛点 质检LIMS如何重构橡胶制品质检价值链
大数据·人工智能·重构·lims·实验室管理系统
Sui_Network2 小时前
Sui Basecamp 2025 全栈出击
大数据·游戏·web3·去中心化·区块链
开利网络2 小时前
开放的力量:新零售生态的共赢密码
大数据·运维·服务器·信息可视化·重构
奋斗者1号2 小时前
神经网络中之多类别分类:从基础到高级应用
大数据·神经网络·分类
Microsoft Word2 小时前
Hadoop架构再探讨
大数据·hadoop·架构
吴爃3 小时前
了解Hadoop
大数据·hadoop·分布式
caihuayuan53 小时前
Vue生命周期&脚手架工程&Element-UI
java·大数据·spring boot·后端·课程设计
lix的小鱼5 小时前
Spark集群搭建之Yarn模式
大数据·分布式·spark