如何搭建Spark YARN模式的集群

如何搭建Spark YARN模式的集群

  • 节点规划:1个主节点(Master)+ N个工作节点(Worker),需安装Java、Hadoop、Spark。

  • 配置YARN:修改Hadoop的 yarn-site.xml ,启用ResourceManager和NodeManager。

Spark配置

  1. 修改Spark参数
  • 编辑 conf/spark-env.sh ,添加:

export HADOOP_CONF_DIR=/path/to/hadoop/conf

export SPARK_MASTER_IP=主节点IP

  1. 配置 slaves 文件
  • 在 conf/slaves 中列出所有Worker节点IP(每行一个)。

启动集群

  1. 启动Hadoop:

start-dfs.sh # 启动HDFS

start-yarn.sh # 启动YARN

  1. 启动Spark集群:

./sbin/start-all.sh # 在主节点执行

验证

  • 访问YARN界面(默认端口8088),查看Spark应用队列。

  • 提交测试任务:

spark-submit --master yarn --class org.apache.spark.examples.SparkPi /path/to/spark-examples.jar 10

相关推荐
序属秋秋秋9 小时前
《Linux系统编程之进程环境》【环境变量】
linux·运维·服务器·c语言·c++·操作系统·系统编程
云计算练习生9 小时前
linux shell编程实战 10 Git工具详解与运维场景实战
linux·运维·git
虚伪的空想家12 小时前
KVM的ubuntu虚机如何关闭安全启动
linux·安全·ubuntu
t1987512817 小时前
在Ubuntu 22.04系统上安装libimobiledevice
linux·运维·ubuntu
skywalk816317 小时前
linux安装Code Server 以便Comate IDE和CodeBuddy等都可以远程连上来
linux·运维·服务器·vscode·comate
晚风吹人醒.18 小时前
缓存中间件Redis安装及功能演示、企业案例
linux·数据库·redis·ubuntu·缓存·中间件
Hard but lovely19 小时前
linux: pthread库的使用和理解
linux
这儿有一堆花21 小时前
Kali Linux:探测存活到挖掘漏洞
linux·运维·服务器
松涛和鸣21 小时前
从零开始理解 C 语言函数指针与回调机制
linux·c语言·开发语言·嵌入式硬件·排序算法
皮小白1 天前
ubuntu开机检查磁盘失败进入应急模式如何修复
linux·运维·ubuntu