08-Apache Iceberg 通俗指南:给“胡乱堆放”的文件加个“智能账本”

08-Apache Iceberg 通俗指南:给"胡乱堆放"的文件加个"智能账本"

在大数据的世界里(比如 HDFS 或 S3),文件通常是散落着的。比如一个"用户表",实际上是文件夹里堆着的 10000 个 csv 或 parquet 小文件。

这导致了几个严重的痛点:

  1. 读写打架:我在写第 10001 个文件时,你正好来读,可能会读到写了一半的脏数据,或者报错。
  2. 修改困难:我想把"张三"改名成"李四"。但我不知道张三在哪几个文件里,难道要把 10000 个文件全翻一遍重写?太慢了!
  3. 甚至不知道刚才版本啥样:只要覆盖了,旧数据就没了,没法"后悔"。

于是,Apache Iceberg 出现了。它不是一个新的存储介质(数据还是存在 HDFS/S3 上),它是一种 Table Format (表格式)


1. 核心思想:Snapshot (快照) 与 Manifest (清单)

Iceberg 的做法是:不信任文件目录,只信任账本。

  • 普通 HDFS/Hive:看这个文件夹里有啥文件,这表就有啥数据。(像只有仓库,没账本)。
  • Iceberg :文件夹里有什么我不关心。我看我的 Metadata (元数据/账本)

怎么运作?

  1. 快照 (Snapshot):每次你要写数据,Iceberg 就会生成一个新的"账本页面"(Snapshot S1, S2...)。
  2. 清单 (Manifest):账本里详细记录了:"这次操作新增了文件 A,删除了文件 B"。
  3. 读数据:读取者先看最新的账本,账本说有哪些文件,我就只读那些文件。哪怕文件夹里还有一堆垃圾文件,只要账本上没记,我就当不存在。

2. 解决了什么问题?(ACID 能力)

由于有了这个精准的账本:

  • 原子性 (Atomicity):你要么成功生成新账本,要么失败。不会让别人读到"写了一半且没上账"的文件。
  • 并发读写 :你写你的(在生成新账本),我读我的(读旧账本)。互不干扰。这就叫 MVCC (多版本并发控制)
  • 时间旅行 (Time Travel):我想看昨天的数据?翻开昨天的账本(Snapshot ID xxx),按那个清单找文件就行了。数据回滚简直是秒级操作。
  • 高效更新 (Upsert) :支持 DELETEUPDATE。虽然底层可能还是重写文件,但 Iceberg 帮我们管理了哪些文件失效、哪些是新的,对用户来说就像操作 MySQL 一样方便。

3. 数据湖三剑客:Iceberg vs Hudi vs Delta

其实试图解决这个问题的不仅有 Iceberg,还有另外两位高手:

  • Apache Iceberg:设计极其优雅,兼容性最好(Netflix 开发)。目前在国外大厂极其流行,被认为是未来的标准。
  • Apache Hudi:Uber 开发。对"流式写入"和"即时更新"支持得特别好。国内很多大厂(字节、阿里)用得很多。
  • Delta Lake:Databricks 公司开发。和 Spark 绑定得最紧密,性能优化做得很好。

他们统称为 "数据湖仓" (Data Lakehouse) 技术 ------ 既有数据湖的便宜(存 S3/HDFS),又有数据仓库的好用(支持 SQL, ACID, Update)。


总结

Iceberg 就是给杂乱无章的大数据文件系统,请了一位拥有超强记忆力的会计

从此以后,我们不再通过"翻箱倒柜"来找数据,而是通过"查账本"来精准定位。

相关推荐
SuperherRo5 小时前
服务攻防-中间件安全&Apache&Tomcat&Jetty&Weblogic&AJP协议&反序列化&CVE漏洞
中间件·tomcat·apache·jetty·weblogic
回忆2012初秋9 小时前
时序库.net平台下的推荐 SonnetDB,一文分析清除他与Apache IoTDB的区同
apache·iotdb
家有娇妻张兔兔1 天前
Apache POI 导出 Word 踩坑实录:Word 分栏为什么做不好左右平铺
c#·word·apache·poi·分栏
HashData酷克数据1 天前
官宣:Apache Cloudberry (Incubating) 2.1.0 正式发布!
apache
weixin_394758031 天前
直播间小程序码生成问题修复代码清单
android·小程序·apache
YaBingSec2 天前
玄机靶场—Apache-druid(CVE-2021-25646) WP
java·开发语言·笔记·安全·php·apache
回忆2012初秋4 天前
.NET 时序数据操作实战:Apache IoTDB连接与 CRUD 完全指南
.net·apache·iotdb
weixin_430750934 天前
部署FreeRadius+php+apache+mariaDB+daloradius 实现认证计费功能
php·apache·mariadb·daloradius·freeradius
还在忙碌的吴小二5 天前
Apache HertzBeat 安装使用完整指南
apache
web前端神器5 天前
记录uniapp小程序的报错
小程序·uni-app·apache