「2025年全年」Paimon全年更新核心特性总结和解析

大家好,我们又见面了。

今天带来的是Apache Paimon这个框架2025年全年更新汇总,希望对你有帮助。

今年年3月1日,Paimon社区正式发布了具有里程碑意义的1.0稳定版本,迎来了技术发展的重要里程碑。 整个2025年,Paimon框架的更新集中在:核心性能提升、AI集成、生态兼容和生产实践验证等方面。我们分别从上面几个方面入手详细展开一下。

历史文章可以参考:

核心性能提升

查询性能提升

  1. Lookup查询优化

在Paimon新版本中,针对维度表的Lookup Join有两个非常关键的优化:1.纯内存缓存模式 2.基于Bucket的Shuffle优化。 第一个关于内存缓存,这个比较容易理解,在某些⾼并发查询场景下,纯内存模式的性能是显著高于给予RocksDB的缓存模式,维度表数据直接加载到TaskManager的内存中,避免了RocksDB的序列化和反序列化开销,极⼤地提升了查询性能。 第二个关于Shuffle优化,主要是缓解数据量较⼤时会导致启动缓慢和内存占⽤过⾼的问题,基于Bucket的Shuffle优化可以只加载和处理与其处理的Bucket相关的维度数据,从而减少了内存占⽤和数据加载时间,当然这个有一定前提要求维度表是固定Bucket(Fixed Bucket)表,并且Join的键包含所有Bucket键。

  1. 其他

剩余的关于查询优化相关的升级还包括:

  • COUNT(*) 优化,直接返回Manifest中的统计数据,不在扫描数据文件;

  • 主键表Thin模式存储优化,不再保存重复的Key columns,节省存储同时提升查询性能;

  • Bitmap索引优化,Bitmap下推到Parquet Reader中,且作用到Page粒度,显著提升Bitmap的过滤效果,大幅提升性能;

写入优化

Paimon针对⼩⽂件合并Compaction进⾏了深度优化,用来缓解因频繁Checkpoint和⼤量⼩⽂件⽣成⽽导致的写⼊瓶颈和反压问题。关于Paimon的小文件和反压问题可以参考:

总而言之,Paimon引⼊了将⼩⽂件合并过程完全异步化的优化策略,核心参数可以参考上面文章中内容。此外,合理设置CheckPoint参数也可以进一步优化写入性能,需要在延迟和吞吐量中间做出权衡。

除了上述的核心优化外,在写入性能上的优化还包含,支持带z-order排序的compaction等等,大家可以根据需要关注。

内存管理优化

在查询优化中,Paimon引⼊纯内存缓存模式提升查询性能同时,也带来了内存管理上的挑战。

Paimon提供了⼀系列配置参数,例如write-buffer-spill.max-disk-size,⽤于限制写⼊过程中本地临时⽂件的总⼤⼩,从⽽避免因临时⽂件过多导致磁盘空间不⾜的问题。用户需要根据场景灵活调整,防止OOM。

AI集成和多模态数据支持

面向AI的统一湖存储格式

Paimon社区在2025年提出Unified Lake Format for Data + AI的定位,通过提供统⼀的存储接⼝和元数据管理,使得企业可以将所有类型的数据(包括结构化、半结构化和⾮结构化数据)集中存储在⼀个数据湖中,从⽽避免了数据在不同系统间的迁移和冗余,为AI应⽤提供了坚实的数据基础。

Lance⽂件格式支持

Lance是⼀种专为AI应⽤设计的列式存储格式,在保持Parquet等格式优点的同时,针对向量搜索和机器学习⼯作负载进⾏了优化,能够⾼效地存储和查询⾼维向量、图像、⽂本等⾮结构化数据。

通过与Lance的集成,Paimon不仅能够存储传统的表数据,还能⾼效地管理和查询AI模型所需的特征向量、训练样本等⾮结构化数据。这样Paimon作为⼀个统⼀的数据湖存储,同时服务于传统的BI分析和现代的AI应⽤。

实时湖仓和主流引擎适配

Paimon的流批一体能力在2025年得到了显著增强,使其能够⾼效地⽀持流式写⼊(Streaming Write)和快照读取(Snapshot Read),从⽽实现数据的增量更新和准实时查询。 在流处理模式下,Paimon可以作为Flink作业的Sink,持续不断地接收上游的变更数据流(Changelog),并将其以增量⽅式写⼊数据湖。同时下游的查询引擎(如Flink、Spark、StarRocks)可以实时读取增量数据。

截止目前,Paimon已经⽀持Flink、Spark、Hive、Trino、StarRocks、Doris等主流引擎,并且在适配度上不断提升。

OK,以上就是我们本次的总结了。关于Paimon更多的更新和行业应用,我们会在后面持续保持关注。

欢迎大家点赞+关注,后续会持续更新更多框架的最新发展。

最后,欢迎加入我们的知识星球小圈子:

如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!