每个subtask都提交一份快照到hdfs,会把10个小的快照合并成一个大的吗?谁来合并?

每个subtask都提交一份快照到hdfs,会把10个小的快照合并成一个大的吗?谁来合并?

直接给你结论,大白话讲透

核心答案

不会自动把 10 个 Subtask 的小快照,合并成一个大文件 10 个并行度,就是 HDFS 上 10 份独立快照目录 / 文件永远保持分开,不合并


一、谁都不会去合并

  • JobManager 不合并
  • TaskManager 不合并
  • Flink 框架本身不做全局合并

为什么不合并?Flink 设计原则:快照、恢复、故障迁移、扩容缩容,全部以 Subtask 为最小独立单元一旦把 10 个子任务快照合成一个大文件:

  • 单个 Subtask 挂了,没法只恢复自己那一小块
  • 必须加载整个大文件,浪费 IO、内存
  • 版本管理、增量快照、并发 CK 全乱套

👉 所以架构上刻意不合并 ,永远保持每个 Subtask 快照独立存放


二、HDFS 上实际长什么样

并行度 = 10 → 一次 Checkpoint 在 HDFS 里:

plaintext

复制代码
/flink/checkpoints/jobid/ck-123/
  /subtask-0/
  /subtask-1/
  /subtask-2/
  ...
  /subtask-9/

10 个独立子目录,各存各的状态文件,互不合并、互不干扰。


三、那恢复的时候怎么凑齐整个作业状态?

很简单:恢复时,10 个 Subtask 各自读取自己对应的那一份快照

  • Subtask0 读 subtask-0 目录
  • Subtask1 读 subtask-1 目录......各自加载、各自恢复,拼起来就是完整作业状态。

是 "分头加载、逻辑拼成整体",不是 "物理合并成一个大文件"。


四、唯独一个例外:RocksDB 增量快照

增量快照也不合并多个 Subtask,只是:单个 Subtask 内部:

  • 全量快照 + 后续只存增量变更减少单个 subtask 自己的存储体积,不跨 subtask 合并

五、回到你最关心的 BroadcastState

并行度 10 → BroadcastState 本来 10 份内容一模一样

  • 照常 10 个子任务各自上传一份快照到 HDFS
  • 默认还是 10 份重复文件,不合并
  • Flink1.15+ 快照复用:物理只存 1 份,其他 9 个做引用 逻辑上还是 10 个 subtask 目录,物理文件只一份,逻辑不分、物理省空间,但也不合并成一个大快照。

六、面试背诵版

每个 Subtask 各自独立提交快照到 HDFS,框架不会把多个子任务快照合并成一个大文件; Flink 以 Subtask 为最小快照和恢复单元,保持各自独立存储,故障重启、扩容缩容只加载对应子任务快照; 恢复时各子任务分别读取自己的快照,逻辑拼接成完整作业状态,而非物理合并。

RocksDB 增量快照时,首次全量快照是每个subtask分开的吗?后续增量状态也是每个subtask分开的?

100% 正确、最终答案

是的!完全正确! RocksDB 增量快照,不管是第一次全量,还是后面 N 次增量,全部都是:每个 subtask 自己一份、完全独立、互不合并、互不共享!

我给你用最清晰、最肯定的方式讲死👇


1. 第一次全量快照

每个 subtask 独立上传自己的全量状态

  • 并行度 = 10
  • → HDFS 上 10 份独立全量快照
  • 互不干扰、不合并、不共享

即使是 BroadcastState(10 份内容一样)→ 也会存 10 份独立全量(除非开了 Flink 1.15+ 快照复用)


2. 后续增量快照

依然是每个 subtask 自己上传自己的增量

  • 每个 subtask 只记录自己的:
    • 新产生的 SST 文件
    • 删了哪些旧文件
  • 每个 subtask 增量 独立、分开、不共享

并行度 10 → 10 份独立增量链


3. 最关键结论(面试必背)

RocksDB 增量快照 = 单个 subtask 自己的增量, 不是全局增量, 不是跨 subtask 共享, 不是合并成一个大增量。


4. 一句话总结(你可以直接背)

RocksDB 增量快照,第一次全量是每个 subtask 独立一份; 后续所有增量快照,也依然是每个 subtask 独立一份、独立上传、独立存储; 所有 subtask 之间完全隔离,不合并、不共享、不交叉。

相关推荐
摇滚侠1 小时前
数据同步 黑马 Elasticsearch 全套教程,黑马旅游网案例
大数据·elasticsearch·搜索引擎
juniperhan1 小时前
Flink 系列第24篇:Flink SQL 集成维度表指南:存储选型、参数调优与实战避坑
大数据·数据仓库·sql·flink
隐于花海,等待花开2 小时前
41.ABS / POW / SQRT 函数深度解析
大数据·hive
AI周红伟2 小时前
数字人,视频,图片用不过时
大数据·人工智能·搜索引擎·copilot·openclaw
light blue bird3 小时前
设备数据变化上传图表数据汇总组件
大数据·前端·信息可视化
Treh UNFO3 小时前
nginx的重定向
大数据·数据库·nginx
天诚智能门锁3 小时前
天诚cat.1人脸公租房智能锁及管控平台助力三门县公租房管理
大数据·人工智能·物联网·智慧城市·公租房
2601_956414143 小时前
2026年5月PCB厂家推荐:TOP5榜产品应对5G基站散热挑战
大数据·人工智能·5g
Justice Young3 小时前
Flink第五章:DataStream API
大数据·flink