08-Apache Iceberg 通俗指南:给"胡乱堆放"的文件加个"智能账本"
在大数据的世界里(比如 HDFS 或 S3),文件通常是散落着的。比如一个"用户表",实际上是文件夹里堆着的 10000 个 csv 或 parquet 小文件。
这导致了几个严重的痛点:
- 读写打架:我在写第 10001 个文件时,你正好来读,可能会读到写了一半的脏数据,或者报错。
- 修改困难:我想把"张三"改名成"李四"。但我不知道张三在哪几个文件里,难道要把 10000 个文件全翻一遍重写?太慢了!
- 甚至不知道刚才版本啥样:只要覆盖了,旧数据就没了,没法"后悔"。
于是,Apache Iceberg 出现了。它不是一个新的存储介质(数据还是存在 HDFS/S3 上),它是一种 Table Format (表格式)。
1. 核心思想:Snapshot (快照) 与 Manifest (清单)
Iceberg 的做法是:不信任文件目录,只信任账本。
- 普通 HDFS/Hive:看这个文件夹里有啥文件,这表就有啥数据。(像只有仓库,没账本)。
- Iceberg :文件夹里有什么我不关心。我看我的 Metadata (元数据/账本)。
怎么运作?
- 快照 (Snapshot):每次你要写数据,Iceberg 就会生成一个新的"账本页面"(Snapshot S1, S2...)。
- 清单 (Manifest):账本里详细记录了:"这次操作新增了文件 A,删除了文件 B"。
- 读数据:读取者先看最新的账本,账本说有哪些文件,我就只读那些文件。哪怕文件夹里还有一堆垃圾文件,只要账本上没记,我就当不存在。
2. 解决了什么问题?(ACID 能力)
由于有了这个精准的账本:
- 原子性 (Atomicity):你要么成功生成新账本,要么失败。不会让别人读到"写了一半且没上账"的文件。
- 并发读写 :你写你的(在生成新账本),我读我的(读旧账本)。互不干扰。这就叫 MVCC (多版本并发控制)。
- 时间旅行 (Time Travel):我想看昨天的数据?翻开昨天的账本(Snapshot ID xxx),按那个清单找文件就行了。数据回滚简直是秒级操作。
- 高效更新 (Upsert) :支持
DELETE和UPDATE。虽然底层可能还是重写文件,但 Iceberg 帮我们管理了哪些文件失效、哪些是新的,对用户来说就像操作 MySQL 一样方便。
3. 数据湖三剑客:Iceberg vs Hudi vs Delta
其实试图解决这个问题的不仅有 Iceberg,还有另外两位高手:
- Apache Iceberg:设计极其优雅,兼容性最好(Netflix 开发)。目前在国外大厂极其流行,被认为是未来的标准。
- Apache Hudi:Uber 开发。对"流式写入"和"即时更新"支持得特别好。国内很多大厂(字节、阿里)用得很多。
- Delta Lake:Databricks 公司开发。和 Spark 绑定得最紧密,性能优化做得很好。
他们统称为 "数据湖仓" (Data Lakehouse) 技术 ------ 既有数据湖的便宜(存 S3/HDFS),又有数据仓库的好用(支持 SQL, ACID, Update)。
总结
Iceberg 就是给杂乱无章的大数据文件系统,请了一位拥有超强记忆力的会计 。
从此以后,我们不再通过"翻箱倒柜"来找数据,而是通过"查账本"来精准定位。