
最近在社区看到一个有意思的更新:RustFS 把自研的 S3 Table 模块开源了。
说起来,现在做 AI 数据栈,大家基本都绕不开 Iceberg。不管是用云厂商的托管服务,还是自己搭数据湖,底层都得有一套兼容 S3 协议的存储,来跑 Iceberg 的表格式。但实际落地下来,我接触的不少团队都会卡在同一个问题上:想做轻量化自建,却找不到合适的开源 S3 Table 实现方案。
要么就是商用闭源的组件,成本不低,而且对中小团队来说有点重;要么就是自己在现有对象存储上二次改造,坑很多,维护起来也麻烦。也正因为这样,这次 RustFS 开源的 S3 Table,至少给想自建 Iceberg 数据湖的团队,多了一个轻量化的可选项。
我翻了一下官方的介绍,这套实现的核心思路,是直接在对象存储层提供 Iceberg 兼容的表接口,不用额外部署复杂的中间件。而且因为是用 Rust 写的,理论上内存占用会比很多 Go/C++ 写的同类方案要低,这点对现在内存涨价的环境来说,是个很实用的优势。
当然,现在刚开源,很多细节还得实测才能下结论,比如元数据读写性能、和不同 Iceberg 版本的兼容性、高并发场景下的稳定性这些。我准备这周搭一套环境跑一跑,看看在实际场景下的表现怎么样,后面再把踩坑过程和配置细节整理出来。
毕竟对做数据基建的人来说,选方案从来不是看 "谁更新了",而是看 "能不能解决自己业务里的实际问题"。
以下是深入学习 RustFS 的推荐资源:RustFS
官方文档: RustFS 官方文档- 提供架构、安装指南和 API 参考。
GitHub 仓库: GitHub 仓库 - 获取源代码、提交问题或贡献代码。
社区支持: GitHub Discussions- 与开发者交流经验和解决方案。