如何搭建spark yarn 模式的集群

搭建Spark on YARN集群的步骤

Spark on YARN模式允许Spark作业在Hadoop YARN资源管理器上运行,这样可以更好地与Hadoop生态系统集成并共享集群资源。以下是搭建Spark YARN集群的详细步骤:

前提条件

  1. 已安装并配置好Hadoop集群(包括HDFS和YARN)

  2. 所有节点已配置SSH免密登录

  3. Java环境已安装(推荐JDK 8或11)

一、安装Spark

  1. 下载Spark

    • Spark官网下载与Hadoop版本兼容的Spark预编译包

    • 例如:wget https://dlcdn.apache.org/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz

  2. 解压安装包

    bash 复制代码
    tar -xzf spark-3.3.2-bin-hadoop3.tgz -C /opt/
    ln -s /opt/spark-3.3.2-bin-hadoop3 /opt/spark
  3. 配置环境变量 (在所有节点):

    在**/etc/profile** 或**~/.bashrc**中添加:

    bash 复制代码
    export SPARK_HOME=/opt/spark
    export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

    然后执行:source /etc/profile

二、配置Spark

  1. 配置spark-env.sh

    bash 复制代码
    cd $SPARK_HOME/conf
    cp spark-env.sh.template spark-env.sh

    编辑spark-env.sh,添加:

    bash 复制代码
    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
    export SPARK_EXECUTOR_MEMORY=2g
    export SPARK_DRIVER_MEMORY=1g
  2. 配置spark-defaults.conf

    bash 复制代码
    cp spark-defaults.conf.template spark-defaults.conf

    编辑spark-defaults.conf,添加:

    bash 复制代码
    spark.master                     yarn
    spark.eventLog.enabled           true
    spark.eventLog.dir               hdfs://namenode:8020/spark-logs
    spark.history.fs.logDirectory    hdfs://namenode:8020/spark-logs
    spark.yarn.jars                  hdfs://namenode:8020/spark/jars/*
  3. 上传Spark依赖到HDFS

    bash 复制代码
    hdfs dfs -mkdir -p /spark/jars
    hdfs dfs -put $SPARK_HOME/jars/* /spark/jars/

三、配置YARN

  1. 确保YARN配置正确

    • 检查**$HADOOP_HOME/etc/hadoop/yarn-site.xml**:

      XML 复制代码
      <property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
      </property>
      <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
      </property>
      <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>8192</value> <!-- 根据实际内存调整 -->
      </property>
  2. 重启YARN服务

    bash 复制代码
    stop-yarn.sh
    start-yarn.sh

四、验证安装

  1. 运行Spark Pi示例

    bash 复制代码
    spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    $SPARK_HOME/examples/jars/spark-examples_2.12-3.3.2.jar 100
  2. 查看YARN Web UI

    访问**http://<yarn-resourcemanager>:8088**查看作业状态

  3. 查看Spark History Server(可选):

    bash 复制代码
    $SPARK_HOME/sbin/start-history-server.sh

    访问**http://<spark-history-server>:18080**

五、常见问题解决

  1. 内存不足错误

    • 调整**spark-submit** 的**--executor-memory** 和**--driver-memory**参数

    • 增加YARN的**yarn.nodemanager.resource.memory-mb**值

  2. 类路径问题

    • 确保**HADOOP_CONF_DIR** 和**YARN_CONF_DIR**正确指向Hadoop配置目录
  3. 网络连接问题

    • 检查所有节点之间的网络连接

    • 确保防火墙不会阻止必要的端口

  4. 权限问题

    • 确保HDFS目录有正确的权限

    • 使用**hdfs dfs -chmod**调整权限

通过以上步骤,您应该能够成功搭建一个Spark on YARN集群。根据实际环境和需求,可能需要调整内存配置和其他参数

相关推荐
进击的尘埃1 小时前
Vitest 自定义 Reporter 与覆盖率卡口:在 Monorepo 里搞增量覆盖率检测
javascript
进击的尘埃1 小时前
E2E 测试里的网络层,到底该怎么 Mock?
javascript
DevUI团队2 小时前
🚀 【Angular】MateChat V20.2.2版本发布,新增8+组件,欢迎体验~
前端·javascript·人工智能
DevUI团队2 小时前
🚀 MateChat V1.11.0 震撼发布!新增工具按钮栏组件及体验问题修复,欢迎体验~
前端·javascript·人工智能
学以智用2 小时前
Vue 3 核心函数全解(组合式 API + 常用工具函数)
javascript·vue.js
滕青山2 小时前
HTTP状态查询 在线工具核心JS实现
前端·javascript·vue.js
SuperEugene3 小时前
Vue3 中后台实战:VXE-Table 从基础表格到复杂业务表格全攻略 | Vue生态精选篇
前端·javascript·vue.js
SuperEugene3 小时前
Vue3 中后台实战:Element + VXE Table 搜索表格分页完整方案 | Vue生态精选篇
前端·javascript·vue.js
gyx_这个杀手不太冷静3 小时前
OpenCode 进阶使用指南(第一章:Agent 模式)
前端·javascript·ai编程
wuhen_n3 小时前
computed 的缓存哲学:如何避免不必要的重复计算?
前端·javascript·vue.js