如何搭建spark yarn 模式的集群集群

搭建 Spark on Yarn 模式的集群配置步骤

1. 环境准备

在搭建 Spark on Yarn 的集群之前,需要确保 Hadoop 和 YARN 已经正常部署并运行。以下是必要的准备工作:

  • 安装 Java JDK 并设置 `JAVA_HOME` 环境变量。

  • 部署 Hadoop 集群,并确认 HDFS 和 YARN 正常工作。

2. 下载与解压 Spark

下载适合版本的 Spark 压缩包,并将其解压缩至指定路径。例如:

```bash

wget https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz

tar -xzvf spark-3.0.0-bin-hadoop2.7.tgz

mv spark-3.0.0-bin-hadoop2.7 /usr/local/spark

```

3. 修改 Spark 配置文件

进入 Spark 的配置目录 `/usr/local/spark/conf`,并对以下文件进行修改:

(1) `spark-env.sh`

创建或编辑该文件以设置环境变量:

```bash

export SPARK_DIST_CLASSPATH=$(hadoop classpath)

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

export HADOOP_CONF_DIR=/etc/hadoop/conf

```

此操作是为了让 Spark 能够识别 Hadoop 的类路径以及相关配置。

(2) `spark-defaults.conf`

启用事件日志记录功能以便于调试和监控:

```properties

spark.eventLog.enabled true

spark.eventLog.dir hdfs://<namenode-host>:9820/spark/eventLogs

spark.eventLog.compress true

spark.yarn.historyServer.address <history-server-host>:18080

spark.yarn.jars hdfs://<namenode-host>:9820/spark/jars/*

```

其中 `<namenode-host>` 是 HDFS NameNode 的主机名,而 `<history-server-host>` 则是 Spark History Server 所在的主机名称。

(3) `slaves`

如果计划使用独立模式作为备用方案,则需在此处定义 Worker 节点列表;但在纯 YARN 场景下可以忽略此项。

4. 启动服务

完成以上配置之后即可依次启动所需的服务组件:

  • **HDFS 和 YARN**: 使用命令 `start-dfs.sh` 及 `start-yarn.sh` 来开启分布式存储系统及其资源调度框架;

  • **Spark History Server**: 如果启用了历史服务器支持的话,可通过执行脚本来激活它:

```bash

sbin/start-history-server.sh

```

5. 提交作业测试

最后通过提交一个简单的例子来验证整个流程是否通畅无误。比如利用 Cluster Mode 方式运行经典的 Pi 计算案例:

```bash

./bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master yarn \

--deploy-mode cluster \

--driver-memory 1g \

--executor-memory 1g \

--executor-cores 1 \

examples/jars/spark-examples*.jar 10

```

这里指定了驱动器内存大小为 1GB (`--driver-memory`) ,每个执行者分配同样容量(`--executor-memory`)加上单核 CPU 处理能力(`--executor-cores`). 参数后面跟着的是 JAR 文件位置连同其主入口函数参数值.


注意事项

为了保证最佳性能体验,在实际生产环境中可能还需要进一步调整更多高级选项如动态分配策略等细节设定。

相关推荐
@insist1234 小时前
信息安全工程师考点精讲:身份认证核心原理与分类体系(上篇)
大数据·网络·分类·信息安全工程师·软件水平考试
天辛大师4 小时前
AI助力旅游扩大化,五一旅游公园通游年票普惠研究
大数据·启发式算法·旅游
WordPress学习笔记5 小时前
镌刻中式美学的高端WordPress主题
大数据·人工智能·wordpress
数智化精益手记局6 小时前
拆解物料管理erp系统的核心功能,看物料管理erp系统如何解决库存积压与缺料难题
大数据·网络·人工智能·安全·信息可视化·精益工程
Elastic 中国社区官方博客7 小时前
使用 Observability Migration Platform 将 Datadog 和 Grafana 的仪表板与告警迁移到 Kibana
大数据·elasticsearch·搜索引擎·信息可视化·全文检索·grafana·datalog
jkyy20148 小时前
AI运动数字化:以技术重塑场景,健康有益赋能全域运动健康管理
大数据·人工智能·健康医疗
金融小师妹8 小时前
4月30日多因子共振节点:鲍威尔“收官效应”与权力结构重塑的预期重构
大数据·人工智能·重构·逻辑回归
2601_949925188 小时前
AI Agent如何重构跨境物流的决策?
大数据·人工智能·重构·ai agent·geo优化·物流科技
xiaoduo AI8 小时前
客服机器人问题解决率怎么统计?Agent系统自动判断是否解决,比人工回访准?
大数据·人工智能·机器人
小五兄弟9 小时前
YouTube 肖像检测扩展背后:短剧出海版权保护的技术实现与实战策略
大数据·人工智能