clickhouse 特性——clickhouse 基础篇(一)

文章目录

列式存储

列式存储的目的有两个,一是缩小数据扫描范围 ,二是减少数据传输大小, 因此列存储和数据压缩通常是伴生的,列存储是数据压缩的前提。列存储的好处简单总结如下:

  • 将I/O限制为实际需要的数据,仅加载需要访问的列。
  • 节省空间,列存储更容易压缩。
  • 便于压缩编码。
  • 适用于向量化执行引擎。

Parquet 目前比较最流行的列式存储,提供了高效的列式存储数据表达能力,目前在大数据存储生态中被各个开源项目广泛使用,下边是 Parquet 文件存储模型图:

各组件功能说明:

clickhouse 的默认存储格式是 Parquet, 并且支持 Parquet 格式的文件操作,包括导入导出 clickhouse。

向量化查询执行引擎

数据库查询执行模型主要有3种:火山模型(Volcano Model)、物化模型(Materializa-tion Model)、向量化模型(Vectoried Model)。
火山模型

  • 缺点:火山模型就是将SQL 转化为一棵语法树,需要一个节点一个节点的解析,每个节点都有一个输入和输出数据,每次只能处理一条数据,效率低,我们常用的 MySQL 就是该模型。
  • 优点: 处理逻辑清晰,每个节点只要关心自己的处理逻辑即可,耦合性低。

物化模型

  • 每个节点一次处理所有的输入,处理完之后将所有结果一次性输出。

向量化模型

  • 每个节点每次处理一批数据,而不是所有数据和一条数据,属于火山模型和物化模型的折中。clickhouse 和 Presto 和许多其他 OLAP 系统就是使用的该模型。
  • 在向量化模型中,每次处理包含多行记录的一批数据,每一批数据中的每一列都会被存储为一个向量(一个原始数据类型的数组),从而极大地减少了执行过程中的方法调用、反序列化和不必要的if-else操作,大大减少了CPU的使用时间,如下图所示:

从上图我们也可以看出要想使用向量化查询,我们就必须使用列式存储。

向量化模型充分利用了现代计算机的向量化计算:
VectorWise的基本思想

  • 将压缩的列数据整理成现代CPU容易处理的数据向量模式,利用现代CPU的SIMD(Single Instruction Multiple Data,单指令多数据流)技术,每次处理一批向量数据,极大地提高了处理效率。
  • 单指令流(Single Instruction)是指同时只能执行一种操作,多数据流(Multiple Data)则是指在一组同构的数据(通常称为数据向量)上进行操作。

clickhouse 领先其他 OLAP 引擎的特性之一

  • 最大限度地提高硬件(尤其是CPU)的性能,实现了向量化查询执行(Vectorized Query Execution)机制(也叫向量化计算(Vectorization)、向量化操作(Vectorized Operation)、向量编程(Vector Programming)等),将多次for循环计算转化为一次并行计算。

数据压缩

数据压缩的本质就是找出数据的规律,将相似的数据以某种计算方式进行压缩,而列式存储恰恰就是将相似的数据放在一起,这就使得数据压缩效率和压缩比更高。

这进而带来了许多好处:

  • 节省大量存储空间,降低存储成本
  • 读取压缩后的数据量小,磁盘读取速度快
  • 压缩算法按需定制,支持多种不同的压缩算法
  • 同样大小的内存,可以存储更多的数据,缓存效果更好

使用磁盘

内存是昂贵和有限的, clickhouse 不仅支持将数据存储在内存和SSD中,还支持将数据存储在磁盘上。

支持SQL

一个好的OLAP 系统必定是支持类似传统 SQL 的使用方式,当然 clickhouse 对 SQL 的支持比较友好,而且还在不断完善中。

实时数据更新

ClickHouse支持在表中定义主键和排序键,以顺序写入的方式写入 MergeTree 中。在进行 where 范围查询时,可以快速的定位对应数据块,加速查询。

相关推荐
武子康14 小时前
大数据-133 - ClickHouse 基础概述 全面了解
java·大数据·分布式·clickhouse·flink·spark
Casual_Lei15 小时前
ClickHouse 的底层架构和原理
clickhouse·架构
码爸19 小时前
flink 批量写clickhouse
java·clickhouse·flink
goTsHgo1 天前
从底层原理上解释 clickhouse 保证完全的幂等性
数据库·clickhouse
小王是个弟弟2 天前
ClickHouse-Kafka Engine 正确的使用方式
clickhouse·kafka
武子康2 天前
大数据-134 - ClickHouse 集群三节点 安装配置启动
java·大数据·分布式·clickhouse·架构·flink
Hello.Reader3 天前
深入理解 ClickHouse 的性能调优与最佳实践
大数据·数据仓库·clickhouse·数据分析
尘世中迷途小码农4 天前
ClickHouse总结
clickhouse
goTsHgo4 天前
Clickhouse如何完全保证数据的去重
数据库·clickhouse
goTsHgo4 天前
从底层原理上理解ClickHouse 中的稀疏索引
数据库·clickhouse