clickhouse中的分区

mysql的分区

mysql的分区其实就是一张物理表下的某一个B+树。所以分区多了查询效率会下降。但是分区可以快速的不留痕迹的删除数据。所以一般数据大的场景会使用分区。

N 个分区 = N 棵 B+ 树

  1. 非分区表(单表)

    物理结构:整个表的数据和索引存储在一个​ .ibd文件中,文件内是一棵主键 B+ 树(聚簇索引)。

    逻辑视图:Table A→ 1 个 B+ Tree

  2. 分区表(Partitioned Table)

    物理结构:MySQL 会为每个分区创建独立的存储文件(如 table#P#p1.ibd, table#P#p2.ibd)。每个分区文件内部都拥有自己完整的一棵 B+ 树。

    逻辑视图:Table A→ 分区1 (B+ Tree 1)+ 分区2 (B+ Tree 2)+ ... + 分区N (B+ Tree N)

CH的分区

物理上的"文件切割"

ClickHouse 的分区是真正的物理隔离。每个分区对应磁盘上的一个独立文件夹(如 202405_1_10_2),文件夹内包含该分区所有列的数据文件(.bin)和索引文件(.mrk)。

作用:

查询剪枝(Pruning):查询时,如果 WHERE条件包含分区键(如 date = '2026-05-03'),ClickHouse 会直接跳过所有其他分区的文件夹,只读取目标分区内的文件。这是其高性能的第一道关卡。

CH的分区键必须与 ORDER BY 协同

举个例子 ORDER BY (tenant_id, timestamp)。最佳实践是:

PARTITION BY:toYYYYMM(timestamp)(按月分区)

ORDER BY:(tenant_id, timestamp)

工作流:

查询 WHERE tenant_id = 123 AND timestamp = '2026-05-03'。

第一级剪枝(Partition Pruning):根据 timestamp定位到 202605这个分区的文件夹。

第二级定位(Sparse Index):在 202605分区内,根据 (tenant_id, timestamp)的主键索引,快速跳过无关的数据颗粒(Granule)。

CH的分区陷阱

分区使用不当会造成严重后果

分区粒度过细

严禁使用高基数列作为分区键(如 PARTITION BY user_id)。

后果:会导致几万甚至几十万个分区(Partition)。每个分区都是一个文件夹,包含一堆小文件。

危害:

元数据爆炸:system.parts表会极其庞大,后台合并任务队列会堆积,导致系统变慢。

性能下降:查询时打开数万个文件夹的元数据开销,远大于顺序读取一个大文件的成本。

总结与类比

MySQL 分区:像在一本大书里贴了几个彩色标签页。书还是那本书,翻起来(查询)可能快一点,但主要作用是方便你撕掉(删除)某些章节。

ClickHouse 分区:像把一本大书拆成了几本小册子(如2026年1月册、2月册)。查询时,你直接拿起需要的那本小册子读,根本不用碰其他箱子里的书。但如果你拆得太碎(如每页一本小册子),找书的时间(元数据开销)就会超过读书的时间。

相关推荐
狼与自由3 小时前
clickhouse 查询
clickhouse
狼与自由6 小时前
clickhouse mergeTree
clickhouse
狼与自由1 天前
clickhouse建表
clickhouse
简简单单就是我_hehe1 天前
clickhouse内置函数和关键词总结
clickhouse
狼与自由1 天前
clickhouse引擎
clickhouse·c#·linq
狼与自由2 天前
安装使用clickhouse
clickhouse
麦兜和小可的舅舅3 天前
ClickHouse 列管理机制解析:从 COW、IColumn 到 CRTP
c++·clickhouse
4t4run11 天前
1、clickhouse 安装
数据库·clickhouse
JackSparrow41412 天前
使用Elasticsearch代替数据库like以加快查询的各种技术方案+实现细节
大数据·clickhouse·elk·elasticsearch·搜索引擎·postgresql·全文检索