ClickHouse 的 MergeTree 引擎有哪些性能优势？

AAEllisonPang2024-10-01 13:25

ClickHouse 的 MergeTree 引擎是其最核心的表引擎之一，具有以下性能优势：

高吞吐量的数据写入：MergeTree 引擎将数据以不可变的片段形式写入磁盘，这些片段会定期通过后台线程合并，优化存储并提高查询性能。
主键索引：MergeTree 支持主键索引，通过 ORDER BY 或 PRIMARY KEY 定义。索引是稀疏的，这意味着不是每行数据都有一个索引条目，而是每隔一定的数据量（由 index_granularity 控制）创建一个索引条目，这样可以在保持索引较小的同时快速定位数据。
数据分区：MergeTree 允许按某个键（如日期）分区数据，使得查询可以只扫描相关的分区，从而加快查询速度。
数据压缩：MergeTree 存储时会对数据进行压缩，减少存储空间的使用，并且压缩算法（如 LZ4）是针对列式存储优化的，可以提高读取速度。
自适应索引粒度：从 ClickHouse 19.11 版本开始，支持自适应索引间隔大小，可以根据写入数据的大小动态调整索引粒度，以优化查询性能。
多版本并发控制（MVCC）：MergeTree 支持数据的多版本控制，允许旧数据版本在后台合并过程中存在，而不会影响新数据的写入和查询。
后台合并：MergeTree 会在后台自动合并数据片段，这个过程是增量和优化的，不会对前台查询造成太大影响。
支持数据副本：通过在表引擎名前添加 Replicated 前缀（如 ReplicatedMergeTree），MergeTree 支持数据的多副本，提高数据的可用性和容错性。
支持 ALTER 操作：MergeTree 支持对表结构进行实时修改，如添加或删除列，这对于在线服务来说非常重要。
列式存储：MergeTree 按列存储数据，这样可以在查询时只读取必要的列，减少 I/O 操作。
数据标记和稀疏索引的协同工作：MergeTree 使用数据标记文件（.mrk）和稀疏索引协同工作，快速定位到具体的数据块，提高查询效率。
冷热数据分离：从 ClickHouse 19.15 版本开始，支持多路径存储策略（storage_policy），可以将频繁访问的数据和不常访问的数据分别存储到不同的路径上。

这些特性使得 MergeTree 引擎非常适合处理大规模数据集，尤其是在读多写少的场景下，能够提供极高的查询性能。