clickhouse中replacingMergeTree

ReplacingMergeTree是在MergeTree上添加了去重的功能,但是这个功能不可控,合并是一个后台的操作,除非手动触发,不然无法控制,并且它会删除具有相同(区内)主键的重复项。

特点:

1,去重时机不定, 数据的去重只会在合并的过程中出现, 合并会在未知的时间在后台进行,所以你无法预先作出计划。有一些数据可能仍未被处理

2,去重范围有限,有分区的情况下,去重只在分区内去重,没有分区,按照order by 字段去重(order by是必填字段,主键可以不填,主键是用于创建一级索引,也就是用于where查询的条件,用于二分查找到对应的index granularity而index granularity 是作用于order by的系数索引,默认值是8192,非特殊情况不更改,意思是间隔8192创建一个索引)

版本和飞版本

不带版本的,ENGINE = ReplacingMergeTree()

缺点:去重根据排序建去重,但是去重没有顺序,因为是多线程执行,所以数据是删除随机的,可能是删除了最新的数据

带版本的ENGINE = ReplacingMergeTree(字段名)

能解决不带版本的,其实带版本可理解为指明了按照哪个字段值的先后进行区去重,保留最新的数据,版本字段可以是数值版本字段可以是时间

小姐一下:

使用ORDER BY排序键作为判断重复数据的唯一依据。

只有在合并分区的时候才会触发删除重复数据的逻辑。

以数据分区为单位删除重复数据。当分区合并时,同一分区内的重复数据会被删除;不同分区之间的重复数据不会被删除。

在进行数据去重时,因为分区内的数据已经基于ORBER BY进行了排序,所以能够找到那些相邻的重复数据。

数据去重策略有两种:

如果没有设置ver版本号,则保留同一组(同一分区)重复数据中的最后一行。

如果设置了ver版本号,则保留同一组(同一分区)重复数据中ver字段取值最大的那一行。

相关推荐
longxibo7 天前
【Ubuntu datasophon1.2.1 二开之六:解决CLICKHOUSE安装问题】
大数据·linux·clickhouse·ubuntu
l1t7 天前
在python 3.14 容器中安装和使用chdb包
开发语言·python·clickhouse·chdb
linweidong10 天前
别让老板等:千人并发下的实时大屏极致性能优化实录
jmeter·clickhouse·性能优化·sentinel·doris·物化视图·离线数仓
Paraverse_徐志斌10 天前
基于 Kafka + Flink + ClickHouse 电商用户行为实时数仓实践
大数据·clickhouse·flink·kafka·olap·etl
李兆龙的博客11 天前
从一到无穷大 #62 ClickHouse 加速机制持久化格式拆解
clickhouse
麦兜和小可的舅舅15 天前
ClickHouse 一次Schema修改造成的Merge阻塞问题的分析和解决过程
clickhouse
bigdata-rookie19 天前
StarRocks(2.5.1)vs Clickhouse(21.7.3.14)集群 SSB 性能测试
clickhouse
CTO Plus技术服务中19 天前
ClickHouse原理解析与应用实践教程
clickhouse
zhangyifang_00920 天前
ClickHouse查询报错:Code: 62. DB::Exception: Max query size exceeded:
数据库·clickhouse