金融行业湖仓实践:Apache Paimon 小文件治理之道Apache Paimon 小文件治理之道1. 概述准实时数仓已由以微批数仓发展到以数据湖为核心的准实时数仓,相对微批数仓,数据湖数仓方案需要存储的数据和计算资源的消耗成指数级下降。准实时数仓中的数据湖主要实现方案有Hudi、Iceberg、Paimon等几种数据湖开源方案,这几种数据湖方案在生产应用的中的通病是存在小文件问题,小文件治理水平的好坏能看出数据湖技术应用水平的高低。我们银行使用Paimon作为数据湖存储,在应用数据湖的过程中也遇到了部分表产生海量的小文件问题,表500M数据就有几百万的小文件