clickhouse去重复数据解决方案

原因出现问题

因为我们的maxwell对接rabbitmq rabbitmq监听的是mysql的belog日志文件,所以mysql数据的实时操作都会同步数据到maxwell中

从而导致新增插入一条,修改插入一条,删除插入一条,导致同一条数据有大量的重复数据。

解决方案

在仪表板调用统计相关接口之前,先将重复数据处理掉

OPTIMIZE TABLE table_name FINAL

这样就可以根据order by (uuid) 的uuid去掉重复数据,保留最新的一条数据

相关推荐
bigdata-rookie1 天前
StarRocks(2.5.1)vs Clickhouse(21.7.3.14)集群 SSB 性能测试
clickhouse
CTO Plus技术服务中1 天前
ClickHouse原理解析与应用实践教程
clickhouse
zhangyifang_0093 天前
ClickHouse查询报错:Code: 62. DB::Exception: Max query size exceeded:
数据库·clickhouse
HideInTime3 天前
Clickhouse进阶分组复合排序查询
clickhouse
memgLIFE4 天前
clickhouse
clickhouse
Arbori_262155 天前
clickhouse 实现mysql GROUP_CONCAT() 函数
数据库·mysql·clickhouse
斯普信专业组6 天前
Nomad组件部署clickhouse-job
clickhouse·nomad
麦兜和小可的舅舅6 天前
ClickHouse Drop Table On Cluster 故障分析和原理解析
clickhouse·kafka
重生之绝世牛码8 天前
Linux软件安装 —— ClickHouse单节点安装(rpm安装、tar安装两种安装方式)
大数据·linux·运维·数据库·clickhouse·软件安装·clickhouse单节点
麦兜和小可的舅舅8 天前
Spark to ClickHouse由于DNS问题导致Stage重试的Task竞态分析和问题解决过程
clickhouse·spark