Spark,配置历史服务

配置历史服务

一、停止任务

进入/opt/module/spark-standalone/sbin, 运行命令:

./stop-all.sh

二、修改配置

进入 /opt/module/spark-standalone/conf/spark-default.conf.temple 先把名称改成spark-default.conf,再补充两个设置。如下所示具体代码如下:

spark.eventLog.enabled true

spark.eventLog.dir hdfs://hadoop100:8020/directory

三、创建目录

启动hadoop的hdfs服务(start-dfs.sh),并在根目录创建目录directory。可以通过命令行的方式来创建,也可以通过hadoop100:9870的页面操作来创建。

四、修改spark-env.sh文件

(注:4、5两步在上一条博客中直接一起配置了,所以这里可自行跳过)

添加一句设置:

export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://hadoop100:8020/directory"

五、分发配置文件

xsync /opt/module/spark-standalone/conf/

六、重启spark集群。

命令是 ./start-all.sh

七、启动历史服务器

命令是 ./start-history-server.sh

相关推荐
ModelWhale14 分钟前
“大模型”技术专栏 | 浅谈基于 Kubernetes 的 LLM 分布式推理框架架构:概览
分布式·kubernetes·大模型
愿天堂没有C++41 分钟前
C++——分布式
分布式
UPToZ1 小时前
【Docker】搭建一个高性能的分布式对象存储服务 - MinIO
分布式·docker·容器
辞--忧6 小时前
双十一美妆数据分析:洞察消费趋势与行业秘密
大数据
时序数据说13 小时前
国内时序数据库概览
大数据·数据库·物联网·时序数据库·iotdb
前端世界13 小时前
鸿蒙任务调度机制深度解析:优先级、时间片、多核与分布式的流畅秘密
分布式·华为·harmonyos
A尘埃14 小时前
金融项目高可用分布式TCC-Transaction(开源框架)
分布式·金融·开源
夜影风15 小时前
RabbitMQ核心架构与应用
分布式·架构·rabbitmq
阿Paul果奶ooo15 小时前
Flink中基于时间的合流--双流联结(join)
大数据·flink
数据爬坡ing16 小时前
过程设计工具深度解析-软件工程之详细设计(补充篇)
大数据·数据结构·算法·apache·软件工程·软件构建·设计语言