mysql的分区
mysql的分区其实就是一张物理表下的某一个B+树。所以分区多了查询效率会下降。但是分区可以快速的不留痕迹的删除数据。所以一般数据大的场景会使用分区。
N 个分区 = N 棵 B+ 树
-
非分区表(单表)
物理结构:整个表的数据和索引存储在一个 .ibd文件中,文件内是一棵主键 B+ 树(聚簇索引)。
逻辑视图:Table A→ 1 个 B+ Tree
-
分区表(Partitioned Table)
物理结构:MySQL 会为每个分区创建独立的存储文件(如 table#P#p1.ibd, table#P#p2.ibd)。每个分区文件内部都拥有自己完整的一棵 B+ 树。
逻辑视图:Table A→ 分区1 (B+ Tree 1)+ 分区2 (B+ Tree 2)+ ... + 分区N (B+ Tree N)
CH的分区
物理上的"文件切割"
ClickHouse 的分区是真正的物理隔离。每个分区对应磁盘上的一个独立文件夹(如 202405_1_10_2),文件夹内包含该分区所有列的数据文件(.bin)和索引文件(.mrk)。
作用:
查询剪枝(Pruning):查询时,如果 WHERE条件包含分区键(如 date = '2026-05-03'),ClickHouse 会直接跳过所有其他分区的文件夹,只读取目标分区内的文件。这是其高性能的第一道关卡。
CH的分区键必须与 ORDER BY 协同
举个例子 ORDER BY (tenant_id, timestamp)。最佳实践是:
PARTITION BY:toYYYYMM(timestamp)(按月分区)
ORDER BY:(tenant_id, timestamp)
工作流:
查询 WHERE tenant_id = 123 AND timestamp = '2026-05-03'。
第一级剪枝(Partition Pruning):根据 timestamp定位到 202605这个分区的文件夹。
第二级定位(Sparse Index):在 202605分区内,根据 (tenant_id, timestamp)的主键索引,快速跳过无关的数据颗粒(Granule)。
CH的分区陷阱
分区使用不当会造成严重后果
分区粒度过细
严禁使用高基数列作为分区键(如 PARTITION BY user_id)。
后果:会导致几万甚至几十万个分区(Partition)。每个分区都是一个文件夹,包含一堆小文件。
危害:
元数据爆炸:system.parts表会极其庞大,后台合并任务队列会堆积,导致系统变慢。
性能下降:查询时打开数万个文件夹的元数据开销,远大于顺序读取一个大文件的成本。
总结与类比
MySQL 分区:像在一本大书里贴了几个彩色标签页。书还是那本书,翻起来(查询)可能快一点,但主要作用是方便你撕掉(删除)某些章节。
ClickHouse 分区:像把一本大书拆成了几本小册子(如2026年1月册、2月册)。查询时,你直接拿起需要的那本小册子读,根本不用碰其他箱子里的书。但如果你拆得太碎(如每页一本小册子),找书的时间(元数据开销)就会超过读书的时间。