如何搭建spark yarn模式的集群

一、基础环境准备
  1. 安装JDK 1.8+
    所有节点需安装JDK并配置环境变量,确保JAVA_HOME正确指向安装路径14。
  2. 部署Hadoop集群
    • 安装Hadoop(推荐3.x版本),配置YARN资源管理器4。

    • yarn-site.xml中启用资源调度:

      XML 复制代码
      <property>  
        <name>yarn.resourcemanager.hostname</name>  
        <value>主节点IP或主机名</value>  
      </property>  

设置HADOOP_HOMEHADOOP_CONF_DIR环境变量4。

  • 安装Spark

    • 下载与Hadoop兼容的Spark版本(如Spark 3.5.5对应Hadoop 3.x)4。

    • 解压至统一目录(如/opt/spark),配置SPARK_HOME环境变量4。

      二、Spark集成YARN配置
    • 修改spark-env.sh
      添加以下配置以关联Hadoop和YARN:

      复制代码

      bashCopy Code

      export JAVA_HOME=/opt/java/jdk8 export HADOOP_HOME=/opt/hadoop/hadoop-3.2.2 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export SPARK_DIST_CLASSPATH=$(hadoop classpath) # 动态加载Hadoop类路径:ml-citation{ref="4" data="citationList"}

    • 配置spark-defaults.conf
      指定YARN为资源管理器:

      复制代码

      textCopy Code

      spark.master yarn spark.yarn.jars hdfs:///spark/jars/* # 可选,将Spark依赖上传至HDFS:ml-citation{ref="4,8" data="citationList"}


    三、集群分发与服务启动
    • 同步配置到所有节点
      使用scp或集群管理工具(如Ansible)将配置文件和安装目录分发至所有工作节点4。
    • 启动Hadoop与YARN服务
      • 启动HDFS:start-dfs.sh
      • 启动YARN:start-yarn.sh
        确认ResourceManager和NodeManager进程正常4。

    四、验证集群部署
    • 提交测试任务到YARN
      使用spark-submit提交示例程序:

      复制代码

      bashCopy Code

      spark-submit --class org.apache.spark.examples.SparkPi \ --master yarn \ $SPARK_HOME/examples/jars/spark-examples_2.12-3.5.5.jar 100
      检查YARN Web UI(默认端口8088)中任务状态和日志输出34。

    • 验证资源分配
      确认任务执行后,在YARN监控界面查看资源使用情况(CPU、内存分配)3。


    五、注意事项
    • 版本兼容性
      Spark、Hadoop、Scala版本需严格匹配(如Spark 3.5.5需Scala 2.12.x和Hadoop 3.3+)48。
    • 网络与权限
      • 确保节点间SSH无密码互通。
      • 防火墙开放YARN相关端口(如ResourceManager的8032、8088端口)4。
    • 依赖管理
      若将Spark JAR包上传至HDFS,需提前通过hadoop fs -put命令部署,避免任务运行时重复传输4。

    以上步骤通过整合Hadoop YARN与Spark配置实现集群资源统一管理,适用于生产环境的大规模任务调度。

相关推荐
zl97989910 分钟前
SpringBoot-Web开发之内容协商
java·spring boot
bb456b12 分钟前
Snipaste (截图贴图工具) 精准截图 中文免费版
java·工具·贴图
格林威31 分钟前
常规点光源在工业视觉检测上的应用
大数据·人工智能·数码相机·计算机视觉·视觉检测·制造·视觉光源
SimonKing36 分钟前
【开发者必备】Spring Boot 2.7.x:WebMvcConfigurer配置手册来了(三)!
java·后端·程序员
2301_8012522236 分钟前
前端框架Vue(Vue 的挂载点与 data 数据对象)
java·前端·javascript·vue.js·前端框架
ArabySide38 分钟前
【Spring Boot】深入浅出Spring Boot中的控制反转与依赖注入
java·spring boot·后端
shepherd11140 分钟前
破局延时任务(上):为什么选择Spring Boot + DelayQueue来自研分布式延时队列组件?
java·spring boot·后端
技术杠精1 小时前
Docker Swarm之Java 应用部署与平滑更新
java·docker·容器
beyond阿亮1 小时前
nacos支持MCP Server注册与发现
java·python·ai·nacos·mcp
爱思德学术1 小时前
EI会议:第三届大数据、计算智能与应用国际会议(BDCIA 2025)
大数据·机器学习·数据可视化·计算智能