Iceberg vs Hudi - 技术栈

引言

Iceberg 是 Netflix（美国网飞）公司为了解决数据存储和计算引擎之间的适配的问题（即 Hive 在云上的痛点）开发的，2018年11月16日进入Apache孵化器，2020 年5月19日从孵化器毕业，成为 Apache 的顶级项目。

Hudi 是 Uber‌（美国优步）公司为了解决传统批处理模型在近实时场景下的局限性问题（即实时增量更新需求）开发的，2019年1月，Uber 将 Hudi 捐赠给‌ Apache 软件基金会‌，推动其成为开源项目；后续版本持续增强功能，如2021年引入对Spark 3.0的支持，2022年加强Flink集成，2023年至2024年优化查询性能和云原生支持。‌

所以，Iceberg 和 Hudi 开源时间都差不多。

功能对比表

2024 年行业采用现状

Iceberg: ★ 4.2k+ stars, 1.6k+ forks, 300+ contributors
Hudi: ★ 3.9k+ stars, 1.8k+ forks, 400+ contributors

从Github 的关注度上看，目前 Iceberg 略高；但是由于 Hudi 社区更早，其贡献者更多。从发展趋势看，Iceberg 增长曲线更陡峭。

云厂商支持情况

可以看到，阿里云主推 Iceberg，而腾讯云两者都支持。

这里少了华为云，华为云支持 Hudi和 Iceberg，但华为云的湖仓一体架构是以 Hudi 为基础，应该是主推 Hudi‌。

大厂选择

明确选择 Iceberg 为主力:

字节跳动: 全面 Iceberg，构建实时数仓
美团: 核心业务迁移到 Iceberg
Netflix: 亲儿子，内部大规模使用
Apple: 数据湖基于 Iceberg
LinkedIn: 新项目以 Iceberg 为主
Snowflake: Iceberg Tables 核心战略

Hudi 主导或两者并用:

Uber: 亲儿子，核心业务用 Hudi
腾讯: 内部两者都有，微信支付用 Hudi
阿里云: 对外推广 Iceberg，内部部分业务用 Hudi
字节: 少量业务用 Hudi
小米: 早期用 Hudi，部分迁移到 Iceberg

自研或混合:

阿里: 内部有 MaxCompute+自研格式，对外推 Iceberg
腾讯: 内部有 TDW，同时支持两者
Databricks: 力推 Delta Lake

Iceberg 和 Hudi 到底选谁

选 Iceberg

新项目/新团队：从零开始构建数据湖
多引擎环境：需要被 Spark、Flink、Trino、Snowflake 等同时访问
云原生优先：主要使用云对象存储（S3/OSS）
标准化要求：需要开放、标准的表格式
时间旅行重要：合规、审计、数据回滚是强需求

选 Hudi

存量 Hudi 项目：已有成熟 Hudi 体系
Spark 为主：技术栈深度绑定 Spark
CDC 场景：高频 upsert/delete 操作
点查性能敏感：需要内置索引优化
Uber 技术栈：跟随 Uber 技术选型

除了 Iceberg 和 Hudi 之外，还有一个 Delta Lake。由于 Delta Lake 的贡献者以 Databricks 及国外公司为主，国内企业参与度相对较低，导致其在国内社区支持和问题响应上存在短板。2024 年 Delta Lake项目经历了重要变化‌，它被捐赠给 Linux 基金会并加入 Apache 孵化器，但截至 2025年12月，尚未成为Apache顶级项目。

总结

Iceberg 和 Hudi 的初衷场景并不完全相同，造成了在设计上的差别。因此后面是趋同还筑起各自专长优势壁垒未可知。

Hudi跟Spark的代码深度绑定，尤其是写入路径。其设计之初，基本上把Spark作为他们的默认计算引擎了。

而 Apache Iceberg 的方向非常坚定，宗旨就是要做一个通用化设计的Table Format。它完美的解耦了计算引擎和底下的存储系统，便于多样化计算引擎和文件格式，很好的完成了数据湖架构中的Table Format。这一层的实现，因此也更容易成为Table Format层的开源事实标准。

另一方面，Apache Iceberg 也在朝着流批一体的数据存储层发展，manifest和snapshot的设计，有效地隔离不同transaction的变更，非常方便批处理和增量计算。并且，Apache Flink已经是一个流批一体的计算引擎，二都可以完美匹配，合力打造流批一体的数据湖架构。

最后，Apache Iceberg这个项目背后的社区资源非常丰富。在国外，Netflix、Apple、Linkedin、Adobe等公司都有PB级别的生产数据运行在Apache Iceberg上；在国内，腾讯这样的巨头也有非常庞大的数据跑在Apache Iceberg之上，最大的业务每天有几十T的增量数据写入。

最终结论：Iceberg 正在成为更主流的、通用性更强的数据湖表格式标准，但 Hudi 在实时流式处理和 CDC 场景仍有其独特优势。对于大多数企业，从未来扩展性、生态完整性和社区趋势来看，Iceberg 是更安全的选择。