Clickhouse物化视图进阶:Projection

前言

Projection是clickhouse 21.6版本才有的新特性,要使用projection需更新至最新版本


概念

  1. Projection概念由C-Store提出,并在Vertica数据库中落地发展(不同于SQL中的Projection运算) Projections是一组列的集合,使用建表语句定义 Projections按照不同的顺序存储数据,用以优化多样的查询 Vertica扩展Projection支持使用部分聚合函数进行数据上卷优化
  2. ClickHouse Projection沿袭该设计并进行优化 支持使用任意函数存储并自由组合参与数据上卷运算 支持Projection与原始明细表的联合查询

特点

  1. SELECT,INSERT,UPDATE,DELETE等操作的一致性保障
  2. 查询无需任何改动,自动匹配最优Projection进行计算
  3. 可直接通过待优化的查询进行定义,并自动泛化匹配其他查询

缺陷

  1. 无法跨Part聚合
  2. 无法脱离原始表存储,无法使用不同的生命周期与存储介质配置
  3. 不支持JOINS

分类

Projection主要分为两种:normalaggregate

  1. 使用查询定义Projection,新建的Projection仅影响后续的写入数据
  2. 对历史数据构建Projection需要进行Materialize操作
  3. 查询无需任何改动即可使用Projection优化
  4. 可对单表增加多个Projection,查询将择优使用

如何选择正确地Projection

  1. 对每一个候选进行索引分析,得出其预期数据扫描量,并缓存结果
  2. 选择预期扫描数据最少的候选: a. 不用区分projection类型是normal或aggregate,数据量少则优 b. 预期扫描量同时包含了projection的物化程度 c. 尽可能复用缓存结果,避免重复进行索引分析
  3. 当最终选择某个projection 后,将利用前述的回溯分析过程重建查询计划, 并同时满足projection parts 和ordinary parts的读取与计算

Clickhouse物化视图痛点

Clickhouse按照LSM树的结构存储数据

  1. 仅支持一种列排序方式 Order By(uid,pid)无法优化pid的查询; Z-Curve索引支持近邻查询,但索引效率整体下滑; Skip-index在召回率高的数据分布中表现很差;
  2. OLAP预聚合模型需要手动参与设计 预聚合存储AggregatingMergeTree仅支持一种预聚合方式; 查询需要改写方可使用预聚合数据,用户体验差; 明细数据不复存在,无法解决实时明细混合分析需求;
  3. clickhouse物化视图无一致性保障

Projection使用通用的机制完备地解决了前述三大问题

  1. Projection可按照不同的列进行数据重排
  2. Projection可使用聚合查询直接定义预聚合模型
  3. Projection查询分析能自动选择最优Projection进行查询优化,无需改写查询
  4. Projection在任时刻针对任一数据变换操作均提供一 致性保证

Projection的一致性保障

  1. Insert操作: 当数据块写入时,其作为数据源向所有定义的Projections提供输入,形成Projection Parts,最终和原始数据合并构建出带有projection 的part数据目录
  2. Select操作: 当查询命中某一Projection时,形成的查询计划将确保所有数据产生符合预期的结果。针对缺失Projection Parts的数据,将在运行时动态构建并在不引入额外计算开销的前提下与其余数据合并
  3. Mutation操作: Projection在定义时记录了其关联依赖的原始列信息。当对应的列发生变化时,所有相关的Projection将被重新物化,形成的新Part将包含一致的ProjectionPart进行原子提交
相关推荐
躺柒20 小时前
读数字时代的网络风险管理:策略、计划与执行04风险指引体系
大数据·网络·信息安全·数字化·网络管理·网络风险管理
独自归家的兔21 小时前
从 “局部凑活“ 到 “全局最优“:AI 规划能力的技术突破与产业落地实践
大数据·人工智能
海域云-罗鹏1 天前
国内公司与英国总部数据中心/ERP系统互连,SD-WAN专线实操指南
大数据·数据库·人工智能
策知道1 天前
依托政府工作报告准备省考【经验贴】
大数据·数据库·人工智能·搜索引擎·政务
Henry-SAP1 天前
SAP(ERP) 组织结构业务视角解析
大数据·人工智能·sap·erp·sap pp
TracyCoder1231 天前
ElasticSearch内存管理与操作系统(一):内存分配底层原理
大数据·elasticsearch·搜索引擎
cd_949217211 天前
九昆仑低碳科技:所罗门群岛全国森林碳汇项目开发合作白皮书
大数据·人工智能·科技
Acrelhuang1 天前
工商业用电成本高?安科瑞液冷储能一体机一站式解供能难题-安科瑞黄安南
大数据·开发语言·人工智能·物联网·安全
小王毕业啦1 天前
2010-2024年 非常规高技能劳动力(+文献)
大数据·人工智能·数据挖掘·数据分析·数据统计·社科数据·经管数据
言無咎1 天前
从规则引擎到任务规划:AI Agent 重构跨境财税复杂账务处理体系
大数据·人工智能·python·重构