如何搭建spark yarn 模式的集群集群

以下是搭建Spark YARN模式集群的一般步骤:

准备工作

  • 确保集群中各节点安装了Java环境,并配置好 JAVA_HOME 环境变量。

  • 各节点间能通过SSH免密登录。

  • 安装并配置好Hadoop集群,YARN作为Hadoop的资源管理器,Spark YARN模式需要依赖Hadoop环境。

下载与安装Spark

  • 在官网下载适合你系统的Spark版本,将下载的压缩包上传到集群的主节点,并解压到指定目录。

  • 配置 SPARK_HOME 环境变量,在 spark-env.sh 文件中配置相关环境参数,如 export SPARK_DIST_CLASSPATH=$(hadoop classpath) ,让Spark能够找到Hadoop的相关类。

配置Spark

  • 进入Spark的配置目录,复制 spark-defaults.conf.template 为 spark-defaults.conf ,并进行编辑,设置 spark.master 为 yarn , spark.submit.deployMode 为 cluster 等参数。

  • 复制 slaves.template 为 slaves ,在 slaves 文件中列出所有从节点的主机名或IP地址。

分发Spark到从节点

将安装好的Spark目录通过 scp 命令复制到所有从节点的相同目录下。

启动集群

  • 先启动Hadoop集群,包括NameNode、DataNode、ResourceManager、NodeManager等服务。

  • 在主节点上进入Spark的 sbin 目录,执行 start-all.sh 脚本启动Spark集群,会启动Master和Worker等进程。

验证集群

  • 提交一个Spark示例应用程序,如 spark-examples 中的 WordCount 程序,观察任务是否能在YARN集群上正常运行。

  • 通过YARN的Web界面(通常是 http://resourcemanager_ip:8088 )查看应用程序的运行情况和资源使用情况,也可以通过Spark的Web界面(通常是 http://master_ip:8080 )查看Spark集群的状态。

相关推荐
百度Geek说17 小时前
百度大数据成本治理实践
hadoop·spark
梦里不知身是客111 天前
sparkSQL连接报错的一个解决方法
spark
源码之家1 天前
基于Python房价预测系统 数据分析 Flask框架 爬虫 随机森林回归预测模型、链家二手房 可视化大屏 大数据毕业设计(附源码)✅
大数据·爬虫·python·随机森林·数据分析·spark·flask
2501_941142642 天前
云计算与大数据:现代企业数字化转型的双引擎
spark
Saniffer_SH2 天前
通过近期测试简单聊一下究竟是直接选择Nvidia Spark还是4090/5090 GPU自建环境
大数据·服务器·图像处理·人工智能·驱动开发·spark·硬件工程
Q26433650232 天前
【有源码】基于Python的睡眠压力监测分析系统-基于Spark数据挖掘的睡眠压力动态可视化分析系统
大数据·hadoop·python·机器学习·数据挖掘·spark·课程设计
阳爱铭3 天前
ClickHouse 中至关重要的两类复制表引擎——ReplicatedMergeTree和 ReplicatedReplacingMergeTree
大数据·hive·hadoop·sql·clickhouse·spark·hbase
2501_941089193 天前
5G技术与物联网的融合:智能城市与工业革命的加速器
spark
while(努力):进步4 天前
探索未来的技术变革:如何通过云计算与人工智能重塑数字化世界
zookeeper·spark
源码之家5 天前
机器学习:基于大数据二手房房价预测与分析系统 可视化 线性回归预测算法 Django框架 链家网站 二手房 计算机毕业设计✅
大数据·算法·机器学习·数据分析·spark·线性回归·推荐算法