如何搭建spark yarn模式的集合集群

一、环境准备

在搭建 Spark on YARN 集群之前,需要确保以下环境已经准备就绪:

  1. 操作系统:推荐使用 CentOS、Ubuntu 等 Linux 发行版。

  2. Java 环境:确保安装了 JDK 1.8 或更高版本。

  3. Hadoop 集群:已经搭建并运行的 Hadoop 集群,包括 HDFS 和 YARN。

二、安装 Spark

  1. 下载 Spark

    从 Apache Spark 官方网站下载适合您 Hadoop 版本的 Spark 安装包。例如,如果您使用的是 Hadoop 3.2,可以下载 spark-3.1.2-bin-hadoop3.2.tgz

  2. 解压并安装

    将下载的 Spark 安装包解压到指定目录,并创建符号链接以便管理。

    复制代码
    cd /opt/modules/
    tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/installs
    cd /opt/installs
    mv spark-3.1.2-bin-hadoop3.2 spark-yarn
    ln -s /opt/installs/spark-yarn /opt/installs/spark

三、配置 Spark

  1. 修改 spark-env.sh 配置文件。

    在 Spark 的 conf 目录中,将 spark-env.sh.template 文件重命名为 spark-env.sh,并编辑该文件。

    复制代码
    cd /opt/installs/spark/conf
    mv spark-env.sh.template spark-env.sh
    vim spark-env.sh

    在文件中添加以下内容:

    复制代码
    export JAVA_HOME=/opt/installs/jdk
    export HADOOP_CONF_DIR=/opt/installs/hadoop/etc/hadoop
    export YARN_CONF_DIR=/opt/installs/hadoop/etc/hadoop
    export SPARK_DAEMON_MEMORY=1g
    export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://bigdata01:9820/spark/eventLogs/ -Dspark.history.fs.cleaner.enabled=true"
  2. 修改 spark-defaults.conf 文件。

    spark-defaults.conf.template 文件重命名为 spark-defaults.conf,并编辑该文件:

    复制代码
    mv spark-defaults.conf.template spark-defaults.conf
    vim spark-defaults.conf

    添加以下内容:

    复制代码
    spark.eventLog.enabled           true
    spark.eventLog.dir               hdfs://bigdata01:9820/spark/eventLogs
    spark.eventLog.compress          true
    spark.yarn.historyServer.address bigdata01:18080
    spark.yarn.jars                  hdfs://bigdata01:9820/spark/jars/*
  3. 修改 YARN 配置文件

    编辑 Hadoop 的 yarn-site.xml 文件,确保以下配置项正确:

    复制代码
    <property>
      <name>yarn.log-aggregation-enable</name>
      <value>true</value>
    </property>
    <property>
      <name>yarn.log-aggregation.retain-seconds</name>
      <value>604800</value>
    </property>
    <property>
      <name>yarn.log.server.url</name>
      <value>http://bigdata01:19888/jobhistory/logs</value>
    </property>
    <property>
      <name>yarn.nodemanager.pmem-check-enabled</name>
      <value>false</value>
    </property>
    <property>
      <name>yarn.nodemanager.vmem-check-enabled</name>
      <value>false</value>
    </property>
  4. 分发配置文件

    使用工具(如 xsync.sh)将配置文件同步到所有集群节点:

    复制代码
    xsync.sh /opt/installs/spark
    xsync.sh /opt/installs/hadoop/etc/hadoop/yarn-site.xml

四、启动集群

  1. 启动 Hadoop 集群

    确保 HDFS 和 YARN 服务已经启动:

    复制代码
    start-dfs.sh
    start-yarn.sh
  2. 启动 Spark History Server

    启动 Spark 的历史服务器:

    复制代码
    /opt/installs/spark/sbin/start-history-server.sh

五、测试集群

  1. 提交测试作业

    使用 spark-submit 提交一个简单的 Spark 作业:

    复制代码
    spark-submit --master yarn --deploy-mode cluster examples/src/main/python/pi.py 1000
  2. 查看作业运行情况

    在 YARN 的 Web UI 页面(通常是 http://master:8088)中查看作业的运行情况

相关推荐
一个天蝎座 白勺 程序猿7 分钟前
KingbaseES在政务领域的应用实践——武汉人社大数据平台“数字化服务新模式”
大数据·数据库·政务·kingbasees·金仓数据库
pale_moonlight31 分钟前
十、 Scala 应用实践 (上)
大数据·开发语言·scala
m***l11536 分钟前
集成RabbitMQ+MQ常用操作
分布式·rabbitmq
第二只羽毛2 小时前
遵守robots协议的友好爬虫
大数据·爬虫·python·算法·网络爬虫
Elastic 中国社区官方博客2 小时前
使用 A2A 协议和 MCP 在 Elasticsearch 中创建一个 LLM agent 新闻室:第二部分
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
安达发公司2 小时前
安达发|告别手工排产!车间排产软件成为中央厨房的“最强大脑”
大数据·人工智能·aps高级排程·aps排程软件·安达发aps·车间排产软件
拾忆,想起2 小时前
Dubbo分组(Group)使用指南:实现服务接口的多版本管理与环境隔离
分布式·微服务·性能优化·架构·dubbo
武子康2 小时前
大数据-166 Apache Kylin 1.6 Streaming Cubing 实战:Kafka 到分钟级 OLAP
大数据·后端·apache kylin
啊吧怪不啊吧2 小时前
SQL之表的字符串内置函数详解
大数据·数据库·sql
回家路上绕了弯2 小时前
彻底解决超卖问题:从单体到分布式的全场景技术方案
分布式·后端