【大数据学习 | Spark-Core】Spark提交及运行流程

spark的集群运行结构

我们要选择第一种使用方式

命令组成结构 spark-submit [选项] jar包 参数

standalone集群能够使用的选项。

bash 复制代码
--master MASTER_URL #集群地址
--class class_name #jar包中的类
--executor-memory MEM #executor的内存
--executor-cores NUM # executor的核数
--total-executor-cores NUM # 总核数

用spark-submit提交spark应用程序。

bash 复制代码
spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://nn1.hadoop:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
/usr/local/spark/examples/jars/spark-examples_2.12-3.1.2.jar \
100

参考:

集群参数配置

bash 复制代码
--master MASTER_URL #集群地址
--class class_name #jar包中的类
--executor-memory MEM #executor的内存
--executor-cores NUM # executor的核数
--total-executor-cores NUM # 总核数

spark webUI

Driver: 运行 Application 的 main() 函数的节点,提交任务,并下发计算任务;

**Cluster Manager:**在standalone模式中即为Master主节点,负责整个集群节点管理以及资源调度;在YARN模式中为资源管理器;

**Worker节点:**上报自己节点的资源情况,启动 和 管理 Executor;

**Executor:**执行器,是为某个Application运行在worker节点上的一个进程;负责执行task任务(线程);

**Task:**被送到某个Executor上的工作单元,跟MR中的MapTask和ReduceTask概念一样,是运行Application的基本单位。

运行大概流程:

1)driver 端提交应用,并向master申请资源;

2)Master节点通过RPC和Worker节点通信,根据资源情况在相应的worker节点启动Executor 进程;并将资源参数和Driver端的位置传递过来;

3)启动的Executor 进程 会主动与 Driver端通信,Driver 端根据代码的执行情况,产生多个task,发送给Executor;

4)Executor 启动 task 做真正的计算,每个Task 得到资源参数后,对相应的输入分片数据执行计算逻辑;

相关推荐
不灭锦鲤1 小时前
网络安全学习第48天
学习
简佐义的博客2 小时前
转录组数据分析实战,仅需99元(视频版)
大数据·人工智能·数据挖掘·数据分析·音视频
怪侠_岭南一只猿2 小时前
爬虫工程师入门阶段一:基础知识点完全学习文档
css·爬虫·python·学习·html
APO Research2 小时前
工业连接件的隐形升级:杆端轴承正在从“标准件”走向“结构安全件”
大数据·安全·#工业零部件·#机械设计·#工业自动化·#杆端轴承·#机械结构件
YangYang9YangYan2 小时前
2026高职财税大数据应用学数据分析的技术价值与应用前景
大数据·数据挖掘·数据分析
l1t2 小时前
在ARM64 KyLin计算机上安装llama.cpp
大数据·llama·kylin
今天你TLE了吗2 小时前
JVM学习笔记:第八章——执行引擎
java·jvm·笔记·后端·学习
福客AI智能客服3 小时前
电商店铺效率升级:智能客服系统如何重构服务与转化逻辑
大数据·重构
蒙***团3 小时前
使用 MinMix 创建 Tailwindcss 学习网站全流程经验分享
学习
偷吃的耗子3 小时前
大数据报表系统技术方案与业务方案设计
大数据·架构