Clickhouse物化视图进阶:Projection

前言

Projection是clickhouse 21.6版本才有的新特性,要使用projection需更新至最新版本


概念

  1. Projection概念由C-Store提出,并在Vertica数据库中落地发展(不同于SQL中的Projection运算) Projections是一组列的集合,使用建表语句定义 Projections按照不同的顺序存储数据,用以优化多样的查询 Vertica扩展Projection支持使用部分聚合函数进行数据上卷优化
  2. ClickHouse Projection沿袭该设计并进行优化 支持使用任意函数存储并自由组合参与数据上卷运算 支持Projection与原始明细表的联合查询

特点

  1. SELECT,INSERT,UPDATE,DELETE等操作的一致性保障
  2. 查询无需任何改动,自动匹配最优Projection进行计算
  3. 可直接通过待优化的查询进行定义,并自动泛化匹配其他查询

缺陷

  1. 无法跨Part聚合
  2. 无法脱离原始表存储,无法使用不同的生命周期与存储介质配置
  3. 不支持JOINS

分类

Projection主要分为两种:normalaggregate

  1. 使用查询定义Projection,新建的Projection仅影响后续的写入数据
  2. 对历史数据构建Projection需要进行Materialize操作
  3. 查询无需任何改动即可使用Projection优化
  4. 可对单表增加多个Projection,查询将择优使用

如何选择正确地Projection

  1. 对每一个候选进行索引分析,得出其预期数据扫描量,并缓存结果
  2. 选择预期扫描数据最少的候选: a. 不用区分projection类型是normal或aggregate,数据量少则优 b. 预期扫描量同时包含了projection的物化程度 c. 尽可能复用缓存结果,避免重复进行索引分析
  3. 当最终选择某个projection 后,将利用前述的回溯分析过程重建查询计划, 并同时满足projection parts 和ordinary parts的读取与计算

Clickhouse物化视图痛点

Clickhouse按照LSM树的结构存储数据

  1. 仅支持一种列排序方式 Order By(uid,pid)无法优化pid的查询; Z-Curve索引支持近邻查询,但索引效率整体下滑; Skip-index在召回率高的数据分布中表现很差;
  2. OLAP预聚合模型需要手动参与设计 预聚合存储AggregatingMergeTree仅支持一种预聚合方式; 查询需要改写方可使用预聚合数据,用户体验差; 明细数据不复存在,无法解决实时明细混合分析需求;
  3. clickhouse物化视图无一致性保障

Projection使用通用的机制完备地解决了前述三大问题

  1. Projection可按照不同的列进行数据重排
  2. Projection可使用聚合查询直接定义预聚合模型
  3. Projection查询分析能自动选择最优Projection进行查询优化,无需改写查询
  4. Projection在任时刻针对任一数据变换操作均提供一 致性保证

Projection的一致性保障

  1. Insert操作: 当数据块写入时,其作为数据源向所有定义的Projections提供输入,形成Projection Parts,最终和原始数据合并构建出带有projection 的part数据目录
  2. Select操作: 当查询命中某一Projection时,形成的查询计划将确保所有数据产生符合预期的结果。针对缺失Projection Parts的数据,将在运行时动态构建并在不引入额外计算开销的前提下与其余数据合并
  3. Mutation操作: Projection在定义时记录了其关联依赖的原始列信息。当对应的列发生变化时,所有相关的Projection将被重新物化,形成的新Part将包含一致的ProjectionPart进行原子提交
相关推荐
HyperAI超神经41 分钟前
Meta 首个多模态大模型一键启动!首个多针刺绣数据集上线,含超 30k 张图片
大数据·人工智能·深度学习·机器学习·语言模型·大模型·数据集
Hello.Reader3 小时前
TopK算法在大数据重复数据分析中的应用与挑战
大数据·算法·数据分析
数据龙傲天3 小时前
1688商品API接口:电商数据自动化的新引擎
java·大数据·sql·mysql
Elastic 中国社区官方博客3 小时前
Elasticsearch:使用 LLM 实现传统搜索自动化
大数据·人工智能·elasticsearch·搜索引擎·ai·自动化·全文检索
Jason不在家5 小时前
Flink 本地 idea 调试开启 WebUI
大数据·flink·intellij-idea
Elastic 中国社区官方博客6 小时前
使用 Vertex AI Gemini 模型和 Elasticsearch Playground 快速创建 RAG 应用程序
大数据·人工智能·elasticsearch·搜索引擎·全文检索
CHICX12297 小时前
【Hadoop】改一下core-site.xml和hdfs-site.xml配置就可以访问Web UI
xml·大数据·hadoop
权^8 小时前
MySQL--聚合查询、联合查询、子查询、合并查询(上万字超详解!!!)
大数据·数据库·学习·mysql
bin915312 小时前
【EXCEL数据处理】000010 案列 EXCEL文本型和常规型转换。使用的软件是微软的Excel操作的。处理数据的目的是让数据更直观的显示出来,方便查看。
大数据·数据库·信息可视化·数据挖掘·数据分析·excel·数据可视化
极客先躯15 小时前
Hadoop krb5.conf 配置详解
大数据·hadoop·分布式·kerberos·krb5.conf·认证系统