spark介绍

背景

这里用的是spark3.2.1,他是基于内存计算的。

Spark Standalone:
依赖java ,Spark Standalone 是 Spark 原生集群模式,无需依赖第三方资源管理器,包含 Master 节点管理集群资源、Worker 节点执行任务,部署简单,适合中小规模数据处理场景。

java,etc/prfoile的配置

export JAVA_HOME=/usr/local/java/jdk8.0.19/TencentKona-8.0.19-422

export PATH=PATH:{JAVA_HOME}/bin

架构

通常测试1个master,n个worker,1个historyserver

Master

Spark Standalone 的主控节点,负责管理集群 Worker 节点、接收应用提交、分配资源和调度任务,保障集群资源的统一管控与任务分发。spark-ui端口是8080

Worker

Spark Standalone 的工作节点,接收 Master 分配的资源调度,启动 Executor 执行 Task,汇报节点资源使用状态,是实际承载数据计算的核心节点

work的目录在spark/work/里面有,driver和work,driver是随机分配的收集节点。

收集其他executer的执行信息

History Server

Spark 历史服务,读取spark.eventLog.dir存储的事件日志,提供已结束应用的 UI 访问,可查看历史 Job/Stage/Task 详情,定位运行问题。

/tmp/spark-event是他的日志存储,需要hdfs才能凑齐其他数据的,本地磁盘的话,得scp到对应的那台节点

executor是最小执行单元,能够执行任务,一个sparksql对应一个job,job会把他的任务分成多个executor去执行。

job也可以并发多个,一般建议5~10

如何查看日志,进入spark,点击driver,然后就能看到是哪台节点,就可以去看日志了。

如果是启动问题那就看,logs,具体的任务要看work。

cat xx |grep -C 5 "搜索内容"

这种可以看搜索内容的上下5行

ll -t ,按修改时间从新到旧排序(降序)

ll -l -t ,长格式展示

相关推荐
事变天下19 分钟前
第四届超声医学青年学术会议,推出全新启元AI超声生态
大数据·人工智能
AI科技星21 分钟前
ELN 升级:π 级数自动生成器全域数理架构
大数据·人工智能·python·算法·金融
@insist12331 分钟前
信息安全工程师-密码学专题(下):构建可信网络空间的核心机制
java·大数据·密码学·软考·信息安全工程师·软件水平考试
胡耀超1 小时前
从逻辑思维到方法论(DMBOK2)并以知识图谱实践指导:构建企业级思维与执行框架
大数据·人工智能·dama·知识图谱·方法论·逻辑学·思维框架
小张小张爱学习1 小时前
Kafka面试题
分布式·kafka
Irene19911 小时前
大数据开发入门 - 核心SQL英文单词本
大数据·英语
heiqizero1 小时前
Spark RDD转换算子01
spark
奇思智算2 小时前
小白AI创作GPU算力平台测评:多平台对比与选择指南
大数据·人工智能·gpu算力·智星云·gpu算力租用
瑞华丽PLM2 小时前
PLM系统解读
大数据·plm·国产plm·瑞华丽plm·瑞华丽
sheji1052 小时前
割草机器人行业市场分析报告
大数据·人工智能·microsoft