spark介绍

背景

这里用的是spark3.2.1,他是基于内存计算的。

Spark Standalone:
依赖java ,Spark Standalone 是 Spark 原生集群模式,无需依赖第三方资源管理器,包含 Master 节点管理集群资源、Worker 节点执行任务,部署简单,适合中小规模数据处理场景。

java,etc/prfoile的配置

export JAVA_HOME=/usr/local/java/jdk8.0.19/TencentKona-8.0.19-422

export PATH=PATH:{JAVA_HOME}/bin

架构

通常测试1个master,n个worker,1个historyserver

Master

Spark Standalone 的主控节点,负责管理集群 Worker 节点、接收应用提交、分配资源和调度任务,保障集群资源的统一管控与任务分发。spark-ui端口是8080

Worker

Spark Standalone 的工作节点,接收 Master 分配的资源调度,启动 Executor 执行 Task,汇报节点资源使用状态,是实际承载数据计算的核心节点

work的目录在spark/work/里面有,driver和work,driver是随机分配的收集节点。

收集其他executer的执行信息

History Server

Spark 历史服务,读取spark.eventLog.dir存储的事件日志,提供已结束应用的 UI 访问,可查看历史 Job/Stage/Task 详情,定位运行问题。

/tmp/spark-event是他的日志存储,需要hdfs才能凑齐其他数据的,本地磁盘的话,得scp到对应的那台节点

executor是最小执行单元,能够执行任务,一个sparksql对应一个job,job会把他的任务分成多个executor去执行。

job也可以并发多个,一般建议5~10

如何查看日志,进入spark,点击driver,然后就能看到是哪台节点,就可以去看日志了。

如果是启动问题那就看,logs,具体的任务要看work。

cat xx |grep -C 5 "搜索内容"

这种可以看搜索内容的上下5行

ll -t ,按修改时间从新到旧排序(降序)

ll -l -t ,长格式展示

相关推荐
阿星AI工作室9 小时前
刘润年中大课笔记:一句话说清AI落地之战的本质
大数据·人工智能·创业创新·商业
1892280486112 小时前
NY352固态MT29F32T08GWLBHD6-24QJ:B
大数据·服务器·人工智能·科技·缓存
不开大的凯207712 小时前
麦当秀AiPPT战略转向:从SaaS订阅迈向Token经济,AI办公定价模式迎来新探索
大数据·人工智能
程序鉴定师13 小时前
西安小程序制作的可靠选择与发展前景
大数据·小程序
黎阳之光13 小时前
黎阳之光:以视频孪生重构智慧医院信息化,打造高标项目核心竞争力
大数据·人工智能·物联网·算法·数字孪生
qziovv14 小时前
Git 回退场景
大数据·git·elasticsearch
ZeroNews内网穿透15 小时前
面向 AI 协作的本地客户端能力:ZeroNews Agent Skills
大数据·人工智能·elasticsearch
SelectDB15 小时前
Agent 时代,为什么传统的可观测方案不适用了?
大数据·数据库·数据分析
Elastic 中国社区官方博客15 小时前
快 12 倍的 Elasticsearch 向量索引:使用 GPU 和 CPU 分层部署 NVIDIA cuVS
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·nvidia
鹧鸪云光伏15 小时前
光伏设计软件:多屋脊房型如何设计?
大数据·信息可视化·光伏·光伏设计·光伏图纸