08-Apache Iceberg 通俗指南:给“胡乱堆放”的文件加个“智能账本”

08-Apache Iceberg 通俗指南:给"胡乱堆放"的文件加个"智能账本"

在大数据的世界里(比如 HDFS 或 S3),文件通常是散落着的。比如一个"用户表",实际上是文件夹里堆着的 10000 个 csv 或 parquet 小文件。

这导致了几个严重的痛点:

  1. 读写打架:我在写第 10001 个文件时,你正好来读,可能会读到写了一半的脏数据,或者报错。
  2. 修改困难:我想把"张三"改名成"李四"。但我不知道张三在哪几个文件里,难道要把 10000 个文件全翻一遍重写?太慢了!
  3. 甚至不知道刚才版本啥样:只要覆盖了,旧数据就没了,没法"后悔"。

于是,Apache Iceberg 出现了。它不是一个新的存储介质(数据还是存在 HDFS/S3 上),它是一种 Table Format (表格式)


1. 核心思想:Snapshot (快照) 与 Manifest (清单)

Iceberg 的做法是:不信任文件目录,只信任账本。

  • 普通 HDFS/Hive:看这个文件夹里有啥文件,这表就有啥数据。(像只有仓库,没账本)。
  • Iceberg :文件夹里有什么我不关心。我看我的 Metadata (元数据/账本)

怎么运作?

  1. 快照 (Snapshot):每次你要写数据,Iceberg 就会生成一个新的"账本页面"(Snapshot S1, S2...)。
  2. 清单 (Manifest):账本里详细记录了:"这次操作新增了文件 A,删除了文件 B"。
  3. 读数据:读取者先看最新的账本,账本说有哪些文件,我就只读那些文件。哪怕文件夹里还有一堆垃圾文件,只要账本上没记,我就当不存在。

2. 解决了什么问题?(ACID 能力)

由于有了这个精准的账本:

  • 原子性 (Atomicity):你要么成功生成新账本,要么失败。不会让别人读到"写了一半且没上账"的文件。
  • 并发读写 :你写你的(在生成新账本),我读我的(读旧账本)。互不干扰。这就叫 MVCC (多版本并发控制)
  • 时间旅行 (Time Travel):我想看昨天的数据?翻开昨天的账本(Snapshot ID xxx),按那个清单找文件就行了。数据回滚简直是秒级操作。
  • 高效更新 (Upsert) :支持 DELETEUPDATE。虽然底层可能还是重写文件,但 Iceberg 帮我们管理了哪些文件失效、哪些是新的,对用户来说就像操作 MySQL 一样方便。

3. 数据湖三剑客:Iceberg vs Hudi vs Delta

其实试图解决这个问题的不仅有 Iceberg,还有另外两位高手:

  • Apache Iceberg:设计极其优雅,兼容性最好(Netflix 开发)。目前在国外大厂极其流行,被认为是未来的标准。
  • Apache Hudi:Uber 开发。对"流式写入"和"即时更新"支持得特别好。国内很多大厂(字节、阿里)用得很多。
  • Delta Lake:Databricks 公司开发。和 Spark 绑定得最紧密,性能优化做得很好。

他们统称为 "数据湖仓" (Data Lakehouse) 技术 ------ 既有数据湖的便宜(存 S3/HDFS),又有数据仓库的好用(支持 SQL, ACID, Update)。


总结

Iceberg 就是给杂乱无章的大数据文件系统,请了一位拥有超强记忆力的会计

从此以后,我们不再通过"翻箱倒柜"来找数据,而是通过"查账本"来精准定位。

相关推荐
王锋(oxwangfeng)21 小时前
Apache Flink 在 Kubernetes 上的高效部署与优化实践
flink·kubernetes·apache
小天源1 天前
银河麒麟操作系统 V10安装Apache Tomcat
apache
自可乐1 天前
Apache Airflow完全学习指南:从入门到精通的系统教程
人工智能·机器学习·apache
Hello.Reader1 天前
Apache Flink 网络 Buffer 调优Debloating 的边界、Buffer 生命周期
大数据·flink·apache
Hello.Reader1 天前
Apache Flink 内存故障排查从 IllegalConfigurationException 到 OOMKilled,一篇把坑踩平的指南
大数据·flink·apache
小宇的天下2 天前
Cadence allegro---assign net
服务器·php·apache
软件派3 天前
Apache Paimon终极教程——流批一体存储引擎深度解析(附Flink集成案例+性能调优代码)
apache·性能调优·流批一体·实时数据处理·paimon教程·flink集成·湖仓架构
三水不滴3 天前
Apache RocketMQ的原理与实践
经验分享·apache·rocketmq
whale fall4 天前
celery -A tool.src.main worker --loglevel=info --queues=worker1_queue & 什么意思
python·学习·apache