Apache Doris 内部数据裁剪与过滤机制的实现原理 | Deep Dive对于分析型数据库系统来说,读取数据所需要的磁盘 IO 和网络资源耗费了大量的机器资源,尤其是存算分离模式下,远端存储的数据通过网络传输到本地进行数据处理,所以数据裁剪能力对于分析型数据库系统来说非常重要。近期的研究中也体现出这点,比如在扫描节点上使用过滤操作可以降低 50% 以上的执行时间 [1],PowerDrill 通过应用恰当的策略可以裁剪 92.41% 的数据读取,而 Snowflake 的测试显示其在自己的消费者数据集上可以裁剪 99.4% 的数据 [2]。