如何搭建spark yarn 模式的集群集群

以下是搭建Spark YARN模式集群的一般步骤:

准备工作

  • 确保集群中各节点安装了Java环境,并配置好 JAVA_HOME 环境变量。

  • 各节点间能通过SSH免密登录。

  • 安装并配置好Hadoop集群,YARN作为Hadoop的资源管理器,Spark YARN模式需要依赖Hadoop环境。

下载与安装Spark

  • 在官网下载适合你系统的Spark版本,将下载的压缩包上传到集群的主节点,并解压到指定目录。

  • 配置 SPARK_HOME 环境变量,在 spark-env.sh 文件中配置相关环境参数,如 export SPARK_DIST_CLASSPATH=$(hadoop classpath) ,让Spark能够找到Hadoop的相关类。

配置Spark

  • 进入Spark的配置目录,复制 spark-defaults.conf.template 为 spark-defaults.conf ,并进行编辑,设置 spark.master 为 yarn , spark.submit.deployMode 为 cluster 等参数。

  • 复制 slaves.template 为 slaves ,在 slaves 文件中列出所有从节点的主机名或IP地址。

分发Spark到从节点

将安装好的Spark目录通过 scp 命令复制到所有从节点的相同目录下。

启动集群

  • 先启动Hadoop集群,包括NameNode、DataNode、ResourceManager、NodeManager等服务。

  • 在主节点上进入Spark的 sbin 目录,执行 start-all.sh 脚本启动Spark集群,会启动Master和Worker等进程。

验证集群

  • 提交一个Spark示例应用程序,如 spark-examples 中的 WordCount 程序,观察任务是否能在YARN集群上正常运行。

  • 通过YARN的Web界面(通常是 http://resourcemanager_ip:8088 )查看应用程序的运行情况和资源使用情况,也可以通过Spark的Web界面(通常是 http://master_ip:8080 )查看Spark集群的状态。

相关推荐
simidagogogo34 分钟前
生产环境推荐系统最隐蔽的坑:Training-Serving Skew 详解与实战
算法·spark·推荐算法
ACP广源盛1392462567342 分钟前
GSV6155@ACP#DP 1.4a 重定时器芯片,物理 AI 信号长距传输的稳定保障
大数据·人工智能·分布式·嵌入式硬件·spark
ACP广源盛1392462567319 小时前
IX7008 PCIe 交换芯片@ACP#RTX Spark 经济型 8 口扩展芯片(对比 ASM1806)
大数据·人工智能·分布式·嵌入式硬件·gpt·spark·电脑
ACP广源盛1392462567320 小时前
IX6012 PCIe 交换芯片@ACP#RTX Spark 入门级 12 口存储外设扩展方案(对比 ASM1812)
大数据·人工智能·分布式·嵌入式硬件·gpt·spark·电脑
暴躁小师兄数据学院2 天前
【AI大数据工程师特训笔记】第15讲:大数据环境安装
大数据·hadoop·flink·spark
木心术12 天前
在NVIDIA DGX Spark上部署NemoClaw的实际操作方案以及实际应用便利性。
大数据·分布式·spark
KaMeidebaby3 天前
卡梅德生物技术快报|纳米抗体表达:分子生物学实操指南:噬菌体筛选与纳米抗体表达全流程技术拆解
大数据·人工智能·架构·spark·新浪微博
Nefu_lyh3 天前
【Hive】 八、Hive 计算引擎:MapReduce / Tez / Spark 对比与选型
hive·spark·mapreduce
极光代码工作室4 天前
基于数据分析的电影票房预测系统
大数据·python·数据分析·spark·数据可视化
KaMeidebaby5 天前
卡梅德生物技术快报|噬菌体文库构建实验优化及偶联体系实验数据分析
大数据·人工智能·架构·spark·新浪微博