ClickHouse之更新表(ReplicatedReplacingMergeTree)

CK没有更新的方法,但是有一种引擎可以支持去重,它就是ReplicatedReplacingMergeTree;

一种是手工执行optimize table;

另一种是table后面加final关键字;

如何设置去重?

需要指定order key;注意不是primary key;

但是,如果同一order key散落到了不同的分区、不同的分片中,去重会失效;

换言之,只能自动合并同一分区,同一分片的相同ID;

同一个order key要保留哪个?

在本地表最后一个参数上加上一个时间戳;CK会自动取最新的;

CREATE TABLE default.test

(
ID String COMMENT '主键编号',
NAME Nullable(String) COMMENT '名称',

CRT_TIMEDateTime COMMENT '创建时间', TIMESTAMP` Int64

)

ENGINE = ReplicatedReplacingMergeTree('/clickhouse/tables/01/test/',

'replica101',

TIMESTAMP)

PARTITION BY toMonth(CRT_TIME)

ORDER BY TIMESTAMP

SETTINGS index_granularity = 8192;

属性介绍:

ENGINE:表引擎,最常用的是MergeTree,或者说MergeTree家族的各个引擎,当然也可以选择其他引擎。但是,只有MergeTree系列的表引擎才支持主键索引,数据分区,数据副本,数据采样这样的特性,只有此系列的表引擎才支持alter操作。

PARTITION BY:指定分区键,主要根据你的业务场景和数据量大小,可以按年、按月、按天或者其他时间间隔分区,也可以按照哈希去分区。当然,若不声明分区键,则clickhouse会生成一个名为all的分区

ORDER BY:排序字段,clickhouse表会根据排序字段建索引,方便快速查找。如果没有指定主键,排序字段就是主键

PRIMARY KEY:指定主键,它必须是分区键的前缀,或者等于分区键

SETTINGS:配置项,可以把一些配置在这里设置,多个逗号分割

index_granularity:默认8192,表示索引的粒度,即MergeTree的索引在默认情况下,每间隔8192行才生成一个索引。通常不需要修改此参数,不设置就是8192。

old_parts_lifetime:已合并的分区块,多久后删除,默认8分钟

相关推荐
不羁。。5 小时前
【撸靶笔记】第七关:GET - Dump into outfile - String
数据库·笔记·oracle
更深兼春远5 小时前
flink+clinkhouse安装部署
大数据·clickhouse·flink
yangchanghua1116 小时前
pgsql 如何查询今天范围内的数据(当天0点0分0秒 - 当天23点59分59秒....)
数据库·pgsql
larance6 小时前
SQLAlchemy 的异步操作来批量保存对象列表
数据库·python
python_chai6 小时前
从数据汇总到高级分析,SQL 查询进阶实战(下篇)—— 分组、子查询与窗口函数全攻略
数据库·sql·mysql
在努力的前端小白7 小时前
Spring Boot 敏感词过滤组件实现:基于DFA算法的高效敏感词检测与替换
java·数据库·spring boot·文本处理·敏感词过滤·dfa算法·组件开发
未来之窗软件服务7 小时前
自建知识库,向量数据库 (九)之 量化前奏分词服务——仙盟创梦IDE
数据库·仙盟创梦ide·东方仙盟·自建ai·ai分词
冒泡的肥皂10 小时前
MVCC初学demo(一
数据库·后端·mysql
.Shu.11 小时前
Redis Reactor 模型详解【基本架构、事件循环机制、结合源码详细追踪读写请求从客户端连接到命令执行的完整流程】
数据库·redis·架构
yatingliu201912 小时前
HiveQL | 个人学习笔记
hive·笔记·sql·学习