Spark学习——不同模式下执行脚本

举个简单的例子:使用spark官方用例"取pi值"

一、local模式

进入spark目录执行后台命令:

powershell 复制代码
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[*] \
./examples/jars/spark-examples_2.12-3.2.1.jar \
10

运行结果

二、yarn模式

由于默认情况下,Spark作业只有在运行是可以通过web UI进行查看执行情况,任务一旦执行完,就看不了了,所以为了避免这种情况,我们通过配置历史进程将历史记录保存起来,仍可以在spark上查看。
【注意】:hadoop 3.0 端口号8020要改为 9000

1、配置spark-default.conf

spark.eventLog.enabled true

spark.eventLog.dir hdfs://hadoop100:9000/directory

spark.yarn.historyServer.address=hadoop100:18080

spark.history.ui.port=18080

2、配置spark-env.sh

export SPARK_HISTORY_OPTS="

-Dspark.history.ui.port=18080

-Dspark.history.fs.logDirectory=hdfs://hadoop100:9000/directory

-Dspark.history.retainedApplications=30"

3、开启历史进程

sbin/start-history-server.sh

进入spark目录执行后台命令:

powershell 复制代码
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
./examples/jars/spark-examples_2.12-3.2.1.jar \
10

控制台运行结果:

可以通过yarn上的历史记录查到spark的执行记录

会自动跳转到spark的界面,更方便

相关推荐
知识分享小能手4 小时前
Redis入门学习教程,从入门到精通,Redis 概述:知识点详解(1)
数据库·redis·学习
red_redemption6 小时前
自由学习记录(135)
学习
聚铭网络6 小时前
聚铭网络成功入围徐州市大数据集团2026年业务类合作供应商名录(第一批次)
大数据·网络
2501_944934737 小时前
2026大专大数据科学专业未来发展空间大吗?
大数据
金山几座7 小时前
C#学习记录-事件
开发语言·学习·c#
X在敲AI代码7 小时前
推荐系统学习 D1推荐系统核心概述
学习·推荐算法
我的xiaodoujiao8 小时前
API接口自动化测试详细图文教程学习系列1--序章
python·学习·pytest
圆弧YH8 小时前
服务器及网站操作
学习
Alphapeople8 小时前
具身智能学习路线
学习
肖恭伟8 小时前
VScode入门学习
ide·vscode·学习