clickhouse去重复数据解决方案

原因出现问题

因为我们的maxwell对接rabbitmq rabbitmq监听的是mysql的belog日志文件,所以mysql数据的实时操作都会同步数据到maxwell中

从而导致新增插入一条,修改插入一条,删除插入一条,导致同一条数据有大量的重复数据。

解决方案

在仪表板调用统计相关接口之前,先将重复数据处理掉

OPTIMIZE TABLE table_name FINAL

这样就可以根据order by (uuid) 的uuid去掉重复数据,保留最新的一条数据

相关推荐
牛牛木有坏心眼(大数据进阶)6 小时前
linux系统离线环境安装clickhouse客户端
linux·clickhouse
许心月9 小时前
Clickhouse#表记录转换为insert语句
clickhouse
许心月9 小时前
Clickhouse#记录隐藏字段
clickhouse
weixin_307779139 小时前
ClickHouse Windows迁移方案与测试
linux·c++·数据仓库·windows·clickhouse
递归尽头是星辰1 天前
ClickHouse MergeTree引擎:从核心架构到三级索引实战
clickhouse·lsm-tree·分布式架构·mergetree·clickhouse索引
白眼黑刺猬3 天前
ClickHouse 高性能实时分析数据库-索引与数据跳过(查询的“瞬移”能力)
clickhouse
白眼黑刺猬3 天前
ClickHouse高性能实时分析数据库-稀疏索引
数据库·clickhouse
我就是全世界4 天前
ClickHouse vs PostgreSQL:数据分析领域的王者之争,谁更胜一筹?
clickhouse·postgresql·数据分析
爱吃萝卜的猪8 天前
Clickhouse源码分析-副本数据同步
clickhouse·源码解析·副本同步
努力做一名技术8 天前
从 Elastic 到 ClickHouse:日志系统性能与成本优化之路
clickhouse