如何搭建Spark YARN模式的集群

如何搭建Spark YARN模式的集群

  • 节点规划:1个主节点(Master)+ N个工作节点(Worker),需安装Java、Hadoop、Spark。

  • 配置YARN:修改Hadoop的 yarn-site.xml ,启用ResourceManager和NodeManager。

Spark配置

  1. 修改Spark参数
  • 编辑 conf/spark-env.sh ,添加:

export HADOOP_CONF_DIR=/path/to/hadoop/conf

export SPARK_MASTER_IP=主节点IP

  1. 配置 slaves 文件
  • 在 conf/slaves 中列出所有Worker节点IP(每行一个)。

启动集群

  1. 启动Hadoop:

start-dfs.sh # 启动HDFS

start-yarn.sh # 启动YARN

  1. 启动Spark集群:

./sbin/start-all.sh # 在主节点执行

验证

  • 访问YARN界面(默认端口8088),查看Spark应用队列。

  • 提交测试任务:

spark-submit --master yarn --class org.apache.spark.examples.SparkPi /path/to/spark-examples.jar 10

相关推荐
码农小韩5 分钟前
基于Linux的C++学习——动态数组容器vector
linux·c语言·开发语言·数据结构·c++·单片机·学习
Joren的学习记录8 分钟前
【Linux运维大神系列】Kubernetes详解3(kubeadm部署k8s1.23高可用集群)
linux·运维·kubernetes
代码游侠23 分钟前
应用——智能配电箱监控系统
linux·服务器·数据库·笔记·算法·sqlite
2501_9335130433 分钟前
Linux下载离线rpm和依赖包的方法
linux·运维·服务器
XiaoHu020738 分钟前
Linux多线程(详细全解)
linux·运维·服务器·开发语言·c++·git
Xの哲學38 分钟前
Linux Platform驱动深度剖析: 从设计思想到实战解析
linux·服务器·网络·算法·边缘计算
Y淑滢潇潇1 小时前
RHCE Day 10 流程控制之条件语句和循环结构
linux·运维·rhce
ayaya_mana2 小时前
VS Code 远程开发:SSH连接与远程资源管理器的配置
linux·ide·windows·vscode·远程资源管理
choumin2 小时前
在 Debian 上安装并运行 PoCL
linux·编译·安装·pocl
Shanxun Liao3 小时前
CentOS 7.9 根分区 / 已经 100% 用满隐藏占用解决办法
linux·运维·centos