[ClickHouse 运维系列] MergeTree 表引擎学习_01

一、定义与基本概念

MergeTree 是 ClickHouse 中最核心、最常用的表引擎之一。它是为了高效地处理海量数据的存储和查询而设计的列式存储引擎。

在所有的表引擎中，最为核心的当属 MergeTree 系列表引擎，这些表引擎拥有极为强大的性能和广泛的使用场合。MergeTree 系列引擎提供了丰富的特性 (如自定义分区、主键、二级索引等)。

MergeTree 表引擎是 MergeTree 表引擎系列家族中的基本引擎，它包含了该系列引擎的大部分功能，如：

1）基于主键排序存储

功能描述： MergeTree 系列表引擎要求数据按照 ORDER BY 子句定义的排序规则进行物理存储，排序字段可以是单字段或多字段组合。排序后的数据集合不仅能高效利用稀疏索引，还可以在执行范围查询时（如查找某个区间内的数据）显著减少扫描范围。此外，排序规则还利于后续的合并操作，保证分片和分区数据的有序状态。

**示例：**如数据库存储某个用户行为的日志表，包含字段 user_id、event_time（事件时间）和 event_type（事件类型）。若按 user_id, event_time 进行排序，当查询用户在某特定时间区间内的行为数据时，ClickHouse 会结合排序后的数据范围和稀疏索引快速定位相关数据块，避免扫描无关数据，从而大幅提升查询效率。

2）数据分区

**功能描述：**MergeTree 系列表支持通过 PARTITION BY 子句定义分区，将数据按照逻辑规则划分为不同的分区。分区通常基于时间、地域等具有业务意义的字段划分，用于提升查询性能和管理效率。分区规则不仅能加快数据定位，还能优化分布式环境下的并发查询。

**示例：**在电商数据分析场景中，将销售数据按 order_date（订单日期）分区。例如某表包含字段 order_date（订单日期）、product_id（商品ID）、quantity（销售数量）。通过将数据按 order_date 分区，可以快速定位不同日期范围内的销售数据，而无需扫描整张表，从而显著提高查询效率。

3）索引机制

**功能描述：**MergeTree 引擎提供了基于稀疏索引（Sparse Index）的数据块过滤功能。稀疏索引通过记录每个数据块（Mark）的元信息（如最小值和最大值），结合数据的排序规则，快速跳过不符合查询条件的数据块，从而避免全表扫描，提升查询性能。稀疏索引的粒度由 index_granularity 参数控制，默认情况下，每个数据块包含 8192 行数据。

与传统 B-Tree 或哈希索引不同，ClickHouse 的索引依赖于 ORDER BY 排序字段构建主索引，因此更适合用于批量处理和范围查询场景。

此外，ClickHouse 支持跳跃索引（Skip Index）作为辅助索引机制，用于对非排序字段的查询加速。跳跃索引可以在表创建或后续定义时，通过 SETTINGS 配置，如 minmax（最小值和最大值过滤）或 bloom_filter（布隆过滤器）索引，进一步减少扫描范围。但需要注意，跳跃索引的效果依赖于数据分布和查询条件。

示例： 在电商数据分析场景中，假设有一张销售数据表 sales_data，其中包含字段 order_date（订单日期）、product_id（商品ID）和 quantity（销售数量）。对这张表进行查询时，可能会根据日期或商品ID进行筛选。

如果表的数据量非常大，传统的全表扫描查询会非常慢，因此需要使用索引机制来加速查询。在查询某个日期范围内的销售数据时，ClickHouse 会利用稀疏索引跳过不符合条件的数据块。如果查询中还涉及到其他字段（如 product_id），可以为 product_id 字段添加跳跃索引（如 bloom_filter），进一步提高查询性能。

4）数据合并机制

**功能描述：**MergeTree 支持后台自动合并小的数据块（parts）为更大的数据块，以优化存储和查询性能。合并过程中会根据表的排序规则保持数据的有序性，并清理过期或重复的数据（如果启用了相应设置），数据合并机制极大减少了小文件带来的存储和查询开销，提升了查询效率，降低 IO 负担。

5）TTL 数据清理

功能描述：MergeTree 引擎支持基于 TTL（时间到期）规则自动清理过期数据，减少存储占用。该功能可以自动化数据生命周期管理，使的管理人员无需手动删除历史数据，极大减轻了运维负担，比如在日志系统中，可以定义基于时间的 TTL 规则，自动清理过期的日志数据。

补充： 除了以上提到的 MergeTree 引擎的功能，其还有诸如 分布式存储支持 、数据压缩 、增量更新支持 、物化视图 、数据一致性与故障恢复等。

二、MergeTree 引擎系列

MergeTree 引擎作为 MergeTree 引擎家族的基础，包含了多个扩展引擎，它们在 MergeTree 的基础上增加了不同的特性或优化，满足各种场景的需求，以下是一些常见的 MergeTree 引擎家族扩展引擎，这部分内容将在后面的内容进行详细分享整理。

ReplicatedMergeTree - 复制合并树
ReplacingMergeTree - 替换合并树
SummingMergeTree - 求和合并树
AggregatingMergeTree - 聚合合并树
VersionedCollapsingMergeTree - 版本折叠合并树
CollapsingMergeTree - 折叠合并树
GraphiteMergeTree - Graphite 合并树
TinyMergeTree - 轻量合并树
BufferMergeTree - 缓冲合并树
LogMergeTree - 日志合并树
KafkaMergeTree - Kafka 合并树
HDFS MergeTree - HDFS 合并树
MemoryMergeTree - 内存合并树