Spark on YARN

Spark on YARN 基本概念

  1. YARN(Yet Another Resource Negotiator): 是 Hadoop 生态系统的一部分,用于集群资源管理和作业调度。
  2. Spark on YARN: 是指在 YARN 上运行 Spark 应用程序,利用 YARN 来管理资源和调度任务。

Spark on YARN 的运行模式

  1. Cluster 模式: 在这种模式下,Spark Driver 运行在 YARN 集群的一个节点上,适合长时间运行的作业。
  2. Client 模式: 在这种模式下,Spark Driver 运行在提交应用程序的客户端机器上,适合开发和调试。

Spark on YARN 的配置

为了在 YARN 上运行 Spark,需要进行一些配置:

  1. yarn-site.xml: 这是 YARN 的配置文件,通常位于 Hadoop 配置目录中。你需要确保这个文件在 Spark 配置中可以访问。

  2. spark-env.sh: 这是 Spark 的环境配置文件。你需要设置一些环境变量,比如 SPARK_HOME, HADOOP_CONF_DIR 等。

  3. spark-defaults.conf: 这是 Spark 的默认配置文件,可以在这里设置 Spark 作业的一些默认参数,比如 master URL(yarn)、deploy mode(client 或 cluster)、executor 内存等。

提交 Spark 作业到 YARN

可以使用 spark-submit 命令将 Spark 作业提交到 YARN 上运行:

python 复制代码
spark-submit \
  --class <main-class> \
  --master yarn \
  --deploy-mode cluster \
  --executor-memory 4g \
  --executor-cores 2 \
  <application-jar> \
  [application-arguments]

注意事项

  1. 资源配置: 根据作业的需求合理配置 executor 内存和核心数量,避免资源浪费或不足。
  2. 日志查看: 在 YARN 上运行的 Spark 作业的日志可以通过 YARN ResourceManager 或 YARN History Server 查看,帮助你调试和优化作业。
  3. 依赖管理: 如果你的 Spark 作业有外部依赖库,需要确保这些库可以被 YARN 节点访问,可以通过 --jars 参数指定依赖库路径。

例子

假设你有一个 Spark 应用程序,主类是 com.example.MyApp,打包后的 jar 文件名是 myapp.jar,你可以用以下命令提交到 YARN 上运行:

python 复制代码
spark-submit \
  --class com.example.MyApp \
  --master yarn \
  --deploy-mode cluster \
  --executor-memory 4g \
  --executor-cores 2 \
  myapp.jar
相关推荐
G皮T1 小时前
【Elasticsearch】正排索引、倒排索引(含实战案例)
大数据·elasticsearch·搜索引擎·kibana·倒排索引·搜索·正排索引
小葛呀3 小时前
互联网大数据求职面试:从Zookeeper到数据挖掘的技术探讨
大数据·redis·zookeeper·面试·互联网·数据采集·技术栈
T06205144 小时前
【面板数据】A股上市公司注册地所在地数据集(1991-2023年)
大数据
灏瀚星空5 小时前
高频交易技术:订单簿分析与低延迟架构——从Level 2数据挖掘到FPGA硬件加速的全链路解决方案
人工智能·python·算法·信息可视化·fpga开发·架构·数据挖掘
zh_199955 小时前
Spark面试精讲(上)
java·大数据·数据仓库·python·spark·数据库开发·数据库架构
淡酒交魂6 小时前
「Flink」Flink项目搭建方法介绍
大数据·数据挖掘·数据分析
袋鼠云数栈6 小时前
当空间与数据联动,会展中心如何打造智慧运营新范式?
大数据·人工智能·信息可视化
Python当打之年6 小时前
【62 Pandas+Pyecharts | 智联招聘大数据岗位数据分析可视化】
大数据·python·数据分析·pandas·数据可视化
G皮T6 小时前
【Elasticsearch】Elasticsearch 近实时高速查询原理
大数据·elasticsearch·搜索引擎·全文检索·倒排索引·搜索·nrt
Shining_Jiang7 小时前
打卡第44天:无人机数据集分类
人工智能·分类·数据挖掘