Clickhouse物化视图进阶:Projection

前言

Projection是clickhouse 21.6版本才有的新特性,要使用projection需更新至最新版本


概念

  1. Projection概念由C-Store提出,并在Vertica数据库中落地发展(不同于SQL中的Projection运算) Projections是一组列的集合,使用建表语句定义 Projections按照不同的顺序存储数据,用以优化多样的查询 Vertica扩展Projection支持使用部分聚合函数进行数据上卷优化
  2. ClickHouse Projection沿袭该设计并进行优化 支持使用任意函数存储并自由组合参与数据上卷运算 支持Projection与原始明细表的联合查询

特点

  1. SELECT,INSERT,UPDATE,DELETE等操作的一致性保障
  2. 查询无需任何改动,自动匹配最优Projection进行计算
  3. 可直接通过待优化的查询进行定义,并自动泛化匹配其他查询

缺陷

  1. 无法跨Part聚合
  2. 无法脱离原始表存储,无法使用不同的生命周期与存储介质配置
  3. 不支持JOINS

分类

Projection主要分为两种:normalaggregate

  1. 使用查询定义Projection,新建的Projection仅影响后续的写入数据
  2. 对历史数据构建Projection需要进行Materialize操作
  3. 查询无需任何改动即可使用Projection优化
  4. 可对单表增加多个Projection,查询将择优使用

如何选择正确地Projection

  1. 对每一个候选进行索引分析,得出其预期数据扫描量,并缓存结果
  2. 选择预期扫描数据最少的候选: a. 不用区分projection类型是normal或aggregate,数据量少则优 b. 预期扫描量同时包含了projection的物化程度 c. 尽可能复用缓存结果,避免重复进行索引分析
  3. 当最终选择某个projection 后,将利用前述的回溯分析过程重建查询计划, 并同时满足projection parts 和ordinary parts的读取与计算

Clickhouse物化视图痛点

Clickhouse按照LSM树的结构存储数据

  1. 仅支持一种列排序方式 Order By(uid,pid)无法优化pid的查询; Z-Curve索引支持近邻查询,但索引效率整体下滑; Skip-index在召回率高的数据分布中表现很差;
  2. OLAP预聚合模型需要手动参与设计 预聚合存储AggregatingMergeTree仅支持一种预聚合方式; 查询需要改写方可使用预聚合数据,用户体验差; 明细数据不复存在,无法解决实时明细混合分析需求;
  3. clickhouse物化视图无一致性保障

Projection使用通用的机制完备地解决了前述三大问题

  1. Projection可按照不同的列进行数据重排
  2. Projection可使用聚合查询直接定义预聚合模型
  3. Projection查询分析能自动选择最优Projection进行查询优化,无需改写查询
  4. Projection在任时刻针对任一数据变换操作均提供一 致性保证

Projection的一致性保障

  1. Insert操作: 当数据块写入时,其作为数据源向所有定义的Projections提供输入,形成Projection Parts,最终和原始数据合并构建出带有projection 的part数据目录
  2. Select操作: 当查询命中某一Projection时,形成的查询计划将确保所有数据产生符合预期的结果。针对缺失Projection Parts的数据,将在运行时动态构建并在不引入额外计算开销的前提下与其余数据合并
  3. Mutation操作: Projection在定义时记录了其关联依赖的原始列信息。当对应的列发生变化时,所有相关的Projection将被重新物化,形成的新Part将包含一致的ProjectionPart进行原子提交
相关推荐
kakwooi1 小时前
Hadoop---MapReduce(3)
大数据·hadoop·mapreduce
数新网络1 小时前
《深入浅出Apache Spark》系列②:Spark SQL原理精髓全解析
大数据·sql·spark
昨天今天明天好多天6 小时前
【数据仓库】
大数据
油头少年_w7 小时前
大数据导论及分布式存储HadoopHDFS入门
大数据·hadoop·hdfs
Elastic 中国社区官方博客8 小时前
释放专利力量:Patently 如何利用向量搜索和 NLP 简化协作
大数据·数据库·人工智能·elasticsearch·搜索引擎·自然语言处理
力姆泰克8 小时前
看电动缸是如何提高农机的自动化水平
大数据·运维·服务器·数据库·人工智能·自动化·1024程序员节
力姆泰克8 小时前
力姆泰克电动缸助力农业机械装备,提高农机的自动化水平
大数据·服务器·数据库·人工智能·1024程序员节
QYR市场调研8 小时前
自动化研磨领域的革新者:半自动与自动自磨机的技术突破
大数据·人工智能
半部论语9 小时前
第三章:TDengine 常用操作和高级功能
大数据·时序数据库·tdengine
EasyGBS10 小时前
国标GB28181公网直播EasyGBS国标GB28181软件管理解决方案
大数据·网络·音视频·媒体·视频监控·gb28181