如何搭建Spark YARN模式的集群

如何搭建Spark YARN模式的集群

  • 节点规划:1个主节点(Master)+ N个工作节点(Worker),需安装Java、Hadoop、Spark。

  • 配置YARN:修改Hadoop的 yarn-site.xml ,启用ResourceManager和NodeManager。

Spark配置

  1. 修改Spark参数
  • 编辑 conf/spark-env.sh ,添加:

export HADOOP_CONF_DIR=/path/to/hadoop/conf

export SPARK_MASTER_IP=主节点IP

  1. 配置 slaves 文件
  • 在 conf/slaves 中列出所有Worker节点IP(每行一个)。

启动集群

  1. 启动Hadoop:

start-dfs.sh # 启动HDFS

start-yarn.sh # 启动YARN

  1. 启动Spark集群:

./sbin/start-all.sh # 在主节点执行

验证

  • 访问YARN界面(默认端口8088),查看Spark应用队列。

  • 提交测试任务:

spark-submit --master yarn --class org.apache.spark.examples.SparkPi /path/to/spark-examples.jar 10

相关推荐
我爱云计算41 分钟前
K8S详解(5万字详细教程)
linux·运维·云原生·容器·kubernetes
2301_794333913 小时前
实验室服务器配置|通过Docker实现Linux系统多用户隔离与安全防控
linux·服务器·docker·实验室
荣光波比4 小时前
Nginx 实战系列(一)—— Web 核心概念、HTTP/HTTPS协议 与 Nginx 安装
linux·运维·服务器·nginx·云计算
绿箭柠檬茶6 小时前
Ubuntu 使用 Samba 共享文件夹
linux·运维·ubuntu
工藤新一¹7 小时前
Linux —— 虚拟进程地址空间
linux·运维·服务器·c/c++·虚拟进程地址空间
Aspiresky8 小时前
浅析Linux内核scatter-gather list实现
linux·dma·scatter/gather
奔跑吧 android8 小时前
【linux kernel 常用数据结构和设计模式】【数据结构 3】【模拟input子系统input_dev和input_handler之间的多对多关系】
linux·数据结构·input·kernel·input_dev·input_handler·input_handle
再难也得平8 小时前
Linux初级篇
linux·运维·服务器
小猫挖掘机(绝版)9 小时前
通过tailscale实现一台电脑上vscode通过ssh连接另一台电脑上的VMware Linux 虚拟机
linux·windows·vscode·ubuntu·ssh
ajassi200010 小时前
开源 C++ QT Widget 开发(十三)IPC通讯--本地套接字 (Local Socket)
linux·c++·qt·开源