Clickhouse物化视图进阶:Projection

前言

Projection是clickhouse 21.6版本才有的新特性,要使用projection需更新至最新版本


概念

  1. Projection概念由C-Store提出,并在Vertica数据库中落地发展(不同于SQL中的Projection运算) Projections是一组列的集合,使用建表语句定义 Projections按照不同的顺序存储数据,用以优化多样的查询 Vertica扩展Projection支持使用部分聚合函数进行数据上卷优化
  2. ClickHouse Projection沿袭该设计并进行优化 支持使用任意函数存储并自由组合参与数据上卷运算 支持Projection与原始明细表的联合查询

特点

  1. SELECT,INSERT,UPDATE,DELETE等操作的一致性保障
  2. 查询无需任何改动,自动匹配最优Projection进行计算
  3. 可直接通过待优化的查询进行定义,并自动泛化匹配其他查询

缺陷

  1. 无法跨Part聚合
  2. 无法脱离原始表存储,无法使用不同的生命周期与存储介质配置
  3. 不支持JOINS

分类

Projection主要分为两种:normalaggregate

  1. 使用查询定义Projection,新建的Projection仅影响后续的写入数据
  2. 对历史数据构建Projection需要进行Materialize操作
  3. 查询无需任何改动即可使用Projection优化
  4. 可对单表增加多个Projection,查询将择优使用

如何选择正确地Projection

  1. 对每一个候选进行索引分析,得出其预期数据扫描量,并缓存结果
  2. 选择预期扫描数据最少的候选: a. 不用区分projection类型是normal或aggregate,数据量少则优 b. 预期扫描量同时包含了projection的物化程度 c. 尽可能复用缓存结果,避免重复进行索引分析
  3. 当最终选择某个projection 后,将利用前述的回溯分析过程重建查询计划, 并同时满足projection parts 和ordinary parts的读取与计算

Clickhouse物化视图痛点

Clickhouse按照LSM树的结构存储数据

  1. 仅支持一种列排序方式 Order By(uid,pid)无法优化pid的查询; Z-Curve索引支持近邻查询,但索引效率整体下滑; Skip-index在召回率高的数据分布中表现很差;
  2. OLAP预聚合模型需要手动参与设计 预聚合存储AggregatingMergeTree仅支持一种预聚合方式; 查询需要改写方可使用预聚合数据,用户体验差; 明细数据不复存在,无法解决实时明细混合分析需求;
  3. clickhouse物化视图无一致性保障

Projection使用通用的机制完备地解决了前述三大问题

  1. Projection可按照不同的列进行数据重排
  2. Projection可使用聚合查询直接定义预聚合模型
  3. Projection查询分析能自动选择最优Projection进行查询优化,无需改写查询
  4. Projection在任时刻针对任一数据变换操作均提供一 致性保证

Projection的一致性保障

  1. Insert操作: 当数据块写入时,其作为数据源向所有定义的Projections提供输入,形成Projection Parts,最终和原始数据合并构建出带有projection 的part数据目录
  2. Select操作: 当查询命中某一Projection时,形成的查询计划将确保所有数据产生符合预期的结果。针对缺失Projection Parts的数据,将在运行时动态构建并在不引入额外计算开销的前提下与其余数据合并
  3. Mutation操作: Projection在定义时记录了其关联依赖的原始列信息。当对应的列发生变化时,所有相关的Projection将被重新物化,形成的新Part将包含一致的ProjectionPart进行原子提交
相关推荐
高山莫衣14 分钟前
git rebase多次触发冲突
大数据·git·elasticsearch
链上Sniper29 分钟前
智能合约状态快照技术:实现 EVM 状态的快速同步与回滚
java·大数据·linux·运维·web3·区块链·智能合约
wx_ywyy67981 小时前
推客系统小程序终极指南:从0到1构建自动裂变增长引擎,实现业绩10倍增长!
大数据·人工智能·短剧·短剧系统·推客系统·推客小程序·推客系统开发
蚂蚁数据AntData1 小时前
从性能优化赛到社区Committer,走进赵宇捷在Apache Fory的成长之路
大数据·开源·apache·数据库架构
谷新龙0013 小时前
大数据环境搭建指南:基于 Docker 构建 Hadoop、Hive、HBase 等服务
大数据·hadoop·docker
FF-Studio5 小时前
【硬核数学】3. AI如何应对不确定性?概率论为模型注入“灵魂”《从零构建机器学习、深度学习到LLM的数学认知》
大数据·人工智能·深度学习·机器学习·数学建模·自然语言处理·概率论
嘉讯科技HIS系统7 小时前
嘉讯科技:医疗信息化、数字化、智能化三者之间的关系和区别
大数据·数据库·人工智能·科技·智慧医疗
lifallen9 小时前
Paimon vs. HBase:全链路开销对比
java·大数据·数据结构·数据库·算法·flink·hbase
爱吃面的猫9 小时前
大数据Hadoop之——Hbase下载安装部署
大数据·hadoop·hbase
viperrrrrrrrrr79 小时前
大数据(1)-hdfs&hbase
大数据·hdfs·hbase