如何搭建spark yarn 模式的集群集群

以下是搭建Spark YARN模式集群的一般步骤:

准备工作

  • 确保集群中各节点安装了Java环境,并配置好 JAVA_HOME 环境变量。

  • 各节点间能通过SSH免密登录。

  • 安装并配置好Hadoop集群,YARN作为Hadoop的资源管理器,Spark YARN模式需要依赖Hadoop环境。

下载与安装Spark

  • 在官网下载适合你系统的Spark版本,将下载的压缩包上传到集群的主节点,并解压到指定目录。

  • 配置 SPARK_HOME 环境变量,在 spark-env.sh 文件中配置相关环境参数,如 export SPARK_DIST_CLASSPATH=$(hadoop classpath) ,让Spark能够找到Hadoop的相关类。

配置Spark

  • 进入Spark的配置目录,复制 spark-defaults.conf.template 为 spark-defaults.conf ,并进行编辑,设置 spark.master 为 yarn , spark.submit.deployMode 为 cluster 等参数。

  • 复制 slaves.template 为 slaves ,在 slaves 文件中列出所有从节点的主机名或IP地址。

分发Spark到从节点

将安装好的Spark目录通过 scp 命令复制到所有从节点的相同目录下。

启动集群

  • 先启动Hadoop集群,包括NameNode、DataNode、ResourceManager、NodeManager等服务。

  • 在主节点上进入Spark的 sbin 目录,执行 start-all.sh 脚本启动Spark集群,会启动Master和Worker等进程。

验证集群

  • 提交一个Spark示例应用程序,如 spark-examples 中的 WordCount 程序,观察任务是否能在YARN集群上正常运行。

  • 通过YARN的Web界面(通常是 http://resourcemanager_ip:8088 )查看应用程序的运行情况和资源使用情况,也可以通过Spark的Web界面(通常是 http://master_ip:8080 )查看Spark集群的状态。

相关推荐
Light601 天前
从“报告”到“能力”——构建智能化、可审计的数据治理闭环——领码 SPARK 数据质量平台白皮书
大数据·分布式·spark
火龙谷1 天前
day2-采集数据
spark
大厂技术总监下海2 天前
从Hadoop MapReduce到Apache Spark:一场由“磁盘”到“内存”的速度与范式革命
大数据·hadoop·spark·开源
麦麦大数据2 天前
F052pro 基于spark推荐的中医古籍知识图谱可视化推荐系统|spark mlib|hadoop|docker集群
docker·spark-ml·spark·知识图谱·可是还·中医推荐·ehcarts
巧克力味的桃子3 天前
Spark 课程核心知识点复习汇总
大数据·分布式·spark
Light603 天前
智能重构人货场:领码SPARK破解快消行业增长困局的全景解决方案
spark·数字化转型·ai大模型·智能营销·快消行业·供应链优化
叫我:松哥3 天前
基于大数据和深度学习的智能空气质量监测与预测平台,采用Spark数据预处理,利用TensorFlow构建LSTM深度学习模型
大数据·python·深度学习·机器学习·spark·flask·lstm
火龙谷4 天前
day1-部署集群
spark
火龙谷4 天前
day3-构建数仓
spark
阿里云大数据AI技术5 天前
迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升
spark