clickhouse中replacingMergeTree

ReplacingMergeTree是在MergeTree上添加了去重的功能,但是这个功能不可控,合并是一个后台的操作,除非手动触发,不然无法控制,并且它会删除具有相同(区内)主键的重复项。

特点:

1,去重时机不定, 数据的去重只会在合并的过程中出现, 合并会在未知的时间在后台进行,所以你无法预先作出计划。有一些数据可能仍未被处理

2,去重范围有限,有分区的情况下,去重只在分区内去重,没有分区,按照order by 字段去重(order by是必填字段,主键可以不填,主键是用于创建一级索引,也就是用于where查询的条件,用于二分查找到对应的index granularity而index granularity 是作用于order by的系数索引,默认值是8192,非特殊情况不更改,意思是间隔8192创建一个索引)

版本和飞版本

不带版本的,ENGINE = ReplacingMergeTree()

缺点:去重根据排序建去重,但是去重没有顺序,因为是多线程执行,所以数据是删除随机的,可能是删除了最新的数据

带版本的ENGINE = ReplacingMergeTree(字段名)

能解决不带版本的,其实带版本可理解为指明了按照哪个字段值的先后进行区去重,保留最新的数据,版本字段可以是数值版本字段可以是时间

小姐一下:

使用ORDER BY排序键作为判断重复数据的唯一依据。

只有在合并分区的时候才会触发删除重复数据的逻辑。

以数据分区为单位删除重复数据。当分区合并时,同一分区内的重复数据会被删除;不同分区之间的重复数据不会被删除。

在进行数据去重时,因为分区内的数据已经基于ORBER BY进行了排序,所以能够找到那些相邻的重复数据。

数据去重策略有两种:

如果没有设置ver版本号,则保留同一组(同一分区)重复数据中的最后一行。

如果设置了ver版本号,则保留同一组(同一分区)重复数据中ver字段取值最大的那一行。

相关推荐
重生之绝世牛码2 天前
Linux软件安装 —— ClickHouse单节点安装(rpm安装、tar安装两种安装方式)
大数据·linux·运维·数据库·clickhouse·软件安装·clickhouse单节点
麦兜和小可的舅舅2 天前
Spark to ClickHouse由于DNS问题导致Stage重试的Task竞态分析和问题解决过程
clickhouse·spark
重生之绝世牛码2 天前
Linux软件安装 —— ClickHouse集群安装(集成Zookeeper)+ chproxy负载均衡
大数据·linux·数据库·clickhouse·软件安装·clickhouse集群安装·clickhouse负载均衡
无级程序员4 天前
clickhouse创建用户,登录出错的问题,code 516
linux·服务器·clickhouse
billy_gisboy5 天前
01-Windows+DockerDesktop部署ClickHouse
windows·clickhouse
billy_gisboy5 天前
02-Windows DockerDesktop部署ClickHouse,解决指定磁盘数据持久化问题与WSL2调优
windows·clickhouse
hkNaruto5 天前
【运维】低配服务器ClickHouse Docker部署故障复盘与优化配置指南
运维·服务器·clickhouse
有梦想有行动6 天前
ClickHouse的Partition和Part概念
linux·数据库·clickhouse
l1t6 天前
利用DeepSeek辅助翻译clickhouse SQL为DuckDB 格式求解Advent of Code 2025第10题 电子工厂 第二部分
数据库·人工智能·sql·clickhouse·duckdb
l1t6 天前
对clickhouse给出的二分法求解Advent of Code 2025第10题 电子工厂 第二部分的算法理解
数据库·算法·clickhouse