如何搭建Spark YARN模式的集群

如何搭建Spark YARN模式的集群

  • 节点规划:1个主节点(Master)+ N个工作节点(Worker),需安装Java、Hadoop、Spark。

  • 配置YARN:修改Hadoop的 yarn-site.xml ,启用ResourceManager和NodeManager。

Spark配置

  1. 修改Spark参数
  • 编辑 conf/spark-env.sh ,添加:

export HADOOP_CONF_DIR=/path/to/hadoop/conf

export SPARK_MASTER_IP=主节点IP

  1. 配置 slaves 文件
  • 在 conf/slaves 中列出所有Worker节点IP(每行一个)。

启动集群

  1. 启动Hadoop:

start-dfs.sh # 启动HDFS

start-yarn.sh # 启动YARN

  1. 启动Spark集群:

./sbin/start-all.sh # 在主节点执行

验证

  • 访问YARN界面(默认端口8088),查看Spark应用队列。

  • 提交测试任务:

spark-submit --master yarn --class org.apache.spark.examples.SparkPi /path/to/spark-examples.jar 10

相关推荐
菜菜艾3 小时前
基于llama.cpp部署私有大模型
linux·运维·服务器·人工智能·ai·云计算·ai编程
重生的黑客3 小时前
Linux开发工具:条件编译、动静态库与 make/makefile 入门
linux·运维·服务器
minji...3 小时前
Linux 线程同步与互斥(三) 生产者消费者模型,基于阻塞队列的生产者消费者模型的代码实现
linux·运维·服务器·开发语言·网络·c++·算法
w6100104664 小时前
cka-2026-ConfigMap
java·linux·cka·configmap
cc_yy_zh4 小时前
Win10 家庭版找不到Device Guard; 无法处理 VMware Workstation与Device Guard不兼容问题
linux·vmware
嵌入式吴彦祖4 小时前
Luckfox Pico Ultra W WIFI
linux·嵌入式硬件
SPC的存折4 小时前
MySQL 8组复制完全指南
linux·运维·服务器·数据库·mysql
Linux技术芯6 小时前
Refault Distance算法详解
linux
0vvv06 小时前
linux-软件安装
linux
IMPYLH6 小时前
Linux 的 nproc 命令
linux·运维·服务器·bash