每个subtask都提交一份快照到hdfs，会把10个小的快照合并成一个大的吗？谁来合并？

直接给你结论，大白话讲透

核心答案

不会自动把 10 个 Subtask 的小快照，合并成一个大文件 10 个并行度，就是 HDFS 上 10 份独立快照目录 / 文件 ，永远保持分开，不合并。

一、谁都不会去合并

JobManager 不合并
TaskManager 不合并
Flink 框架本身不做全局合并

为什么不合并？Flink 设计原则：快照、恢复、故障迁移、扩容缩容，全部以 Subtask 为最小独立单元一旦把 10 个子任务快照合成一个大文件：

单个 Subtask 挂了，没法只恢复自己那一小块
必须加载整个大文件，浪费 IO、内存
版本管理、增量快照、并发 CK 全乱套

👉 所以架构上刻意不合并 ，永远保持每个 Subtask 快照独立存放。

二、HDFS 上实际长什么样

并行度 = 10 → 一次 Checkpoint 在 HDFS 里：

plaintext

复制代码

/flink/checkpoints/jobid/ck-123/
  /subtask-0/
  /subtask-1/
  /subtask-2/
  ...
  /subtask-9/

10 个独立子目录，各存各的状态文件，互不合并、互不干扰。

三、那恢复的时候怎么凑齐整个作业状态？

很简单：恢复时，10 个 Subtask 各自读取自己对应的那一份快照

Subtask0 读 subtask-0 目录
Subtask1 读 subtask-1 目录......各自加载、各自恢复，拼起来就是完整作业状态。

是 "分头加载、逻辑拼成整体"，不是 "物理合并成一个大文件"。

四、唯独一个例外：RocksDB 增量快照

增量快照也不合并多个 Subtask，只是：单个 Subtask 内部：

全量快照 + 后续只存增量变更减少单个 subtask 自己的存储体积，不跨 subtask 合并。

五、回到你最关心的 BroadcastState

并行度 10 → BroadcastState 本来 10 份内容一模一样

照常 10 个子任务各自上传一份快照到 HDFS
默认还是 10 份重复文件，不合并
Flink1.15+ 快照复用：物理只存 1 份，其他 9 个做引用 逻辑上还是 10 个 subtask 目录，物理文件只一份，逻辑不分、物理省空间，但也不合并成一个大快照。

六、面试背诵版

每个 Subtask 各自独立提交快照到 HDFS，框架不会把多个子任务快照合并成一个大文件； Flink 以 Subtask 为最小快照和恢复单元，保持各自独立存储，故障重启、扩容缩容只加载对应子任务快照； 恢复时各子任务分别读取自己的快照，逻辑拼接成完整作业状态，而非物理合并。

RocksDB 增量快照时，首次全量快照是每个subtask分开的吗？后续增量状态也是每个subtask分开的？

100% 正确、最终答案

是的！完全正确！ RocksDB 增量快照，不管是第一次全量，还是后面 N 次增量，全部都是：每个 subtask 自己一份、完全独立、互不合并、互不共享！

我给你用最清晰、最肯定的方式讲死👇

1. 第一次全量快照

每个 subtask 独立上传自己的全量状态

并行度 = 10
→ HDFS 上 10 份独立全量快照
互不干扰、不合并、不共享

即使是 BroadcastState（10 份内容一样）→ 也会存 10 份独立全量（除非开了 Flink 1.15+ 快照复用）

2. 后续增量快照

依然是每个 subtask 自己上传自己的增量

每个 subtask 只记录自己的：
- 新产生的 SST 文件
- 删了哪些旧文件
每个 subtask 增量 独立、分开、不共享

并行度 10 → 10 份独立增量链

3. 最关键结论（面试必背）

RocksDB 增量快照 = 单个 subtask 自己的增量， 不是全局增量， 不是跨 subtask 共享， 不是合并成一个大增量。

4. 一句话总结（你可以直接背）

RocksDB 增量快照，第一次全量是每个 subtask 独立一份； 后续所有增量快照，也依然是每个 subtask 独立一份、独立上传、独立存储； 所有 subtask 之间完全隔离，不合并、不共享、不交叉。