ClickHouse之更新表（ReplicatedReplacingMergeTree）

Bugkillers2024-10-13 21:29

CK没有更新的方法，但是有一种引擎可以支持去重，它就是ReplicatedReplacingMergeTree；

一种是手工执行optimize table；

另一种是table后面加final关键字；

如何设置去重？

需要指定order key；注意不是primary key；

但是，如果同一order key散落到了不同的分区、不同的分片中，去重会失效；

换言之，只能自动合并同一分区，同一分片的相同ID；

同一个order key要保留哪个？

在本地表最后一个参数上加上一个时间戳；CK会自动取最新的；

CREATE TABLE default.test

(
ID String COMMENT '主键编号',
NAME Nullable(String) COMMENT '名称',

CRT_TIMEDateTime COMMENT '创建时间', TIMESTAMP` Int64

)

ENGINE = ReplicatedReplacingMergeTree('/clickhouse/tables/01/test/',

'replica101',

TIMESTAMP)

PARTITION BY toMonth(CRT_TIME)

ORDER BY TIMESTAMP

SETTINGS index_granularity = 8192;

属性介绍：

ENGINE：表引擎，最常用的是MergeTree，或者说MergeTree家族的各个引擎，当然也可以选择其他引擎。但是，只有MergeTree系列的表引擎才支持主键索引，数据分区，数据副本，数据采样这样的特性，只有此系列的表引擎才支持alter操作。

PARTITION BY：指定分区键，主要根据你的业务场景和数据量大小，可以按年、按月、按天或者其他时间间隔分区，也可以按照哈希去分区。当然，若不声明分区键，则clickhouse会生成一个名为all的分区

ORDER BY：排序字段，clickhouse表会根据排序字段建索引，方便快速查找。如果没有指定主键，排序字段就是主键

PRIMARY KEY：指定主键，它必须是分区键的前缀，或者等于分区键

SETTINGS：配置项，可以把一些配置在这里设置，多个逗号分割

index_granularity：默认8192，表示索引的粒度，即MergeTree的索引在默认情况下，每间隔8192行才生成一个索引。通常不需要修改此参数，不设置就是8192。

old_parts_lifetime：已合并的分区块，多久后删除，默认8分钟