Spark学习——不同模式下执行脚本

举个简单的例子:使用spark官方用例"取pi值"

一、local模式

进入spark目录执行后台命令:

powershell 复制代码
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[*] \
./examples/jars/spark-examples_2.12-3.2.1.jar \
10

运行结果

二、yarn模式

由于默认情况下,Spark作业只有在运行是可以通过web UI进行查看执行情况,任务一旦执行完,就看不了了,所以为了避免这种情况,我们通过配置历史进程将历史记录保存起来,仍可以在spark上查看。
【注意】:hadoop 3.0 端口号8020要改为 9000

1、配置spark-default.conf

spark.eventLog.enabled true

spark.eventLog.dir hdfs://hadoop100:9000/directory

spark.yarn.historyServer.address=hadoop100:18080

spark.history.ui.port=18080

2、配置spark-env.sh

export SPARK_HISTORY_OPTS="

-Dspark.history.ui.port=18080

-Dspark.history.fs.logDirectory=hdfs://hadoop100:9000/directory

-Dspark.history.retainedApplications=30"

3、开启历史进程

sbin/start-history-server.sh

进入spark目录执行后台命令:

powershell 复制代码
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
./examples/jars/spark-examples_2.12-3.2.1.jar \
10

控制台运行结果:

可以通过yarn上的历史记录查到spark的执行记录

会自动跳转到spark的界面,更方便

相关推荐
重生之绝世牛码6 分钟前
Linux软件安装 —— PostgreSQL集群安装(主从复制集群)
大数据·linux·运维·数据库·postgresql·软件安装·postgresql主从集群
LIZHUOLONG112 分钟前
AI 系统学习路径
人工智能·学习
17(无规则自律)29 分钟前
【CSAPP 读书笔记】第一章:计算机系统漫游
linux·c语言·arm开发·嵌入式硬件·学习·ubuntu
曾浩轩32 分钟前
C语言学习记录——BC113 数字三角形
c语言·学习
●VON38 分钟前
Flutter 与 OpenHarmony 应用功能深化:构建独立任务表单页面与完善编辑体验
学习·flutter·openharmony·von
四谎真好看40 分钟前
JavaWeb学习笔记(Day08+Day09)之Mybatis入门+基础操作
笔记·学习·学习笔记·javaweb
wAIxiSeu1 小时前
大数据常见存储格式对比:Parquet、ORC、Avro、Arrow与Lance
大数据
丝斯20111 小时前
AI学习笔记整理(56)——大模型微调
人工智能·笔记·学习
峥嵘life1 小时前
Android16 EDLA【CTS】CtsNetTestCases存在fail项
android·java·linux·学习·elasticsearch
楼田莉子2 小时前
Linux进程间通信——管道
linux·运维·服务器·c++·学习