如何搭建Spark YARN模式的集群

如何搭建Spark YARN模式的集群

  • 节点规划:1个主节点(Master)+ N个工作节点(Worker),需安装Java、Hadoop、Spark。

  • 配置YARN:修改Hadoop的 yarn-site.xml ,启用ResourceManager和NodeManager。

Spark配置

  1. 修改Spark参数
  • 编辑 conf/spark-env.sh ,添加:

export HADOOP_CONF_DIR=/path/to/hadoop/conf

export SPARK_MASTER_IP=主节点IP

  1. 配置 slaves 文件
  • 在 conf/slaves 中列出所有Worker节点IP(每行一个)。

启动集群

  1. 启动Hadoop:

start-dfs.sh # 启动HDFS

start-yarn.sh # 启动YARN

  1. 启动Spark集群:

./sbin/start-all.sh # 在主节点执行

验证

  • 访问YARN界面(默认端口8088),查看Spark应用队列。

  • 提交测试任务:

spark-submit --master yarn --class org.apache.spark.examples.SparkPi /path/to/spark-examples.jar 10

相关推荐
王小义笔记23 分钟前
WSL(Linux)如何安装conda
linux·运维·conda
偷懒下载原神33 分钟前
【linux操作系统】信号
linux·运维·服务器·开发语言·c++·git·后端
源远流长jerry40 分钟前
RDMA 传输服务详解:可靠性与连接模式的深度剖析
linux·运维·网络·tcp/ip·架构
AMoon丶1 小时前
Golang--垃圾回收
java·linux·开发语言·jvm·后端·算法·golang
Densen20141 小时前
发布blazor应用到Linux, 使用nginx作为WebSocket代理
linux·websocket·nginx
相思难忘成疾1 小时前
RHEL9 文件管理与 vi/vim 编辑操作实验
linux·编辑器·vim
朱一头zcy1 小时前
Linux系列02:网络配置、修改hosts映射文件、关闭防火墙
linux·运维·网络
天赐学c语言2 小时前
Linux - 网络应用层协议HTTP
linux·c++·网络服务
JiMoKuangXiangQu2 小时前
Linux 锁 (3) - semaphore
linux·semaphore
顶点多余2 小时前
Linux中进程间通信 ---管道篇
linux·运维·服务器