如何搭建Spark YARN模式的集群

如何搭建Spark YARN模式的集群

  • 节点规划:1个主节点(Master)+ N个工作节点(Worker),需安装Java、Hadoop、Spark。

  • 配置YARN:修改Hadoop的 yarn-site.xml ,启用ResourceManager和NodeManager。

Spark配置

  1. 修改Spark参数
  • 编辑 conf/spark-env.sh ,添加:

export HADOOP_CONF_DIR=/path/to/hadoop/conf

export SPARK_MASTER_IP=主节点IP

  1. 配置 slaves 文件
  • 在 conf/slaves 中列出所有Worker节点IP(每行一个)。

启动集群

  1. 启动Hadoop:

start-dfs.sh # 启动HDFS

start-yarn.sh # 启动YARN

  1. 启动Spark集群:

./sbin/start-all.sh # 在主节点执行

验证

  • 访问YARN界面(默认端口8088),查看Spark应用队列。

  • 提交测试任务:

spark-submit --master yarn --class org.apache.spark.examples.SparkPi /path/to/spark-examples.jar 10

相关推荐
知北游天1 小时前
Linux:再谈进程地址空间
android·linux·运维
liulilittle1 小时前
yum 报错误提示:yum-config-manager --disable <repoid>
linux·服务器·centos
Johny_Zhao2 小时前
Nmap 从入门到精通:详细指南
linux·网络·网络安全·信息安全·云计算·shell·nmap·yum源·系统运维·itsm
huan_19932 小时前
通过shell脚本检测服务是否存活并进行邮件的通知
linux·运维·linux运维·服务宕机通知·shell运维脚本
egoist20233 小时前
【Linux仓库】权限的量子纠缠:用户/组/other如何编织Linux访问控制网?
linux·运维·服务器·编辑器·权限·文件权限
大春儿的试验田4 小时前
Linux性能监控工具nmon
linux·压力测试
CodingCos4 小时前
【【嵌入式开发 Linux 常用命令系列 19 -- linux top 命令的交互使用介绍】
linux·运维·服务器·top 命令
0x7CF7 小时前
SetThrowSegvLongjmpSEHFilter错误和myFuncInitialize 崩溃
java·linux·算法
白总Server9 小时前
Redis + ABP vNext 构建分布式高可用缓存架构
linux·microsoft·ci/cd·docker·中间件·架构·github