如何搭建spark yarn模式的集群

搭建 Spark on YARN 模式的集群需要完成 Hadoop 和 Spark 的安装与配置,并确保它们能够协同工作。以下是详细的搭建步骤和代码示例:

1 系统准备

  • 操作系统:推荐使用 CentOS 或 Ubuntu。

  • Java 环境:安装 JDK 1.8 或更高版本

    java 复制代码
    sudo apt update
    sudo apt install openjdk-8-jdk

    Scala 环境(可选,视需求而定):

java 复制代码
sudo apt install scala

2 安装 Hadoop

  • 下载并解压 Hadoop

    java 复制代码
    wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
    tar -xzvf hadoop-3.3.4.tar.gz -C /opt/
    mv /opt/hadoop-3.3.4 /opt/hadoop

    配置 Hadoop

  • hadoop-env.sh:设置 Java 环境变量

java 复制代码
vim /opt/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

core-site.xml:配置 HDFS
*

java 复制代码
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
</configuration>

hdfs-site.xml:配置 HDFS 的存储位置
*

java 复制代码
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
</configuration>

yarn-site.xml:配置 YARN
*

java 复制代码
<configuration>
  <property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
  </property>
  <property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
  </property>
</configuration>

slaves:添加从节点主机名
*

java 复制代码
vim /opt/hadoop/etc/hadoop/slaves
slave1
slave2

启动 Hadoop

java 复制代码
/opt/hadoop/bin/hdfs namenode -format
/opt/hadoop/sbin/start-dfs.sh
/opt/hadoop/sbin/start-yarn.sh

3. 安装 Spark

  • 下载并解压 Spark

java 复制代码
wget https://downloads.apache.org/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz
tar -xzvf spark-3.2.4-bin-hadoop3.2.tgz -C /opt/
mv /opt/spark-3.2.4-bin-hadoop3.2 /opt/spark

配置 Spark

  • spark-env.sh:设置环境变量

    java 复制代码
    cp /opt/spark/conf/spark-env.sh.template /opt/spark/conf/spark-env.sh
    vim /opt/spark/conf/spark-env.sh
    export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
    export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop
    export YARN_CONF_DIR=/opt/hadoop/etc/hadoop

    spark-defaults.conf:启用事件日志

java 复制代码
cp /opt/spark/conf/spark-defaults.conf.template /opt/spark/conf/spark-defaults.conf
vim /opt/spark/conf/spark-defaults.conf
spark.eventLog.enabled true
spark.eventLog.dir hdfs://master:9000/spark/eventLogs
spark.yarn.historyServer.address master:18080

slaves:添加从节点主机名
*

java 复制代码
cp /opt/spark/conf/slaves.template /opt/spark/conf/slaves
vim /opt/spark/conf/slaves
slave1
slave2

分发配置文件: 将主节点的 Spark 配置文件分发到所有从节点。
*

java 复制代码
scp -r /opt/spark/conf/spark-env.sh root@slave1:/opt/spark/conf/
scp -r /opt/spark/conf/spark-env.sh root@slave2:/opt/spark/conf/

启动 Spark

  • 在主节点启动 Spark Shell。

java 复制代码
spark-shell --master yarn --deploy-mode client

测试集群

  • 提交一个示例作业

java 复制代码
spark-submit --master yarn --deploy-mode cluster examples/src/main/python/pi.py 1000

验证集群

  • 访问 YARN 的 Web UI 页面(http://master:8088),查看应用的运行情况。
相关推荐
回家路上绕了弯1 天前
深入解析Agent Subagent架构:原理、协同逻辑与实战落地指南
分布式·后端
字节跳动数据平台1 天前
5000 字技术向拆解 | 火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
武子康1 天前
大数据-239 离线数仓 - 广告业务实战:Flume 导入日志到 HDFS,并完成 Hive ODS/DWD 分层加载
大数据·后端·apache hive
字节跳动数据平台2 天前
代码量减少 70%、GPU 利用率达 95%:火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
得物技术2 天前
深入剖析Spark UI界面:参数与界面详解|得物技术
大数据·后端·spark
武子康2 天前
大数据-238 离线数仓 - 广告业务 Hive分析实战:ADS 点击率、购买率与 Top100 排名避坑
大数据·后端·apache hive
武子康3 天前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天3 天前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
武子康5 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
肌肉娃子6 天前
20260227.spark.Spark 性能刺客:千万别在 for 循环里写 withColumn
spark