clickhouse去重复数据解决方案

原因出现问题

因为我们的maxwell对接rabbitmq rabbitmq监听的是mysql的belog日志文件,所以mysql数据的实时操作都会同步数据到maxwell中

从而导致新增插入一条,修改插入一条,删除插入一条,导致同一条数据有大量的重复数据。

解决方案

在仪表板调用统计相关接口之前,先将重复数据处理掉

OPTIMIZE TABLE table_name FINAL

这样就可以根据order by (uuid) 的uuid去掉重复数据,保留最新的一条数据

相关推荐
武子康4 天前
大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进
java·大数据·clickhouse·hdfs·架构·flink·apache
武子康4 天前
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!
java·大数据·clickhouse·flink·apache
AAEllisonPang5 天前
ClickHouse 的 MergeTree 引擎有哪些性能优势?
大数据·数据库·clickhouse
SelectDB技术团队5 天前
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
数据仓库·clickhouse·doris·快手·lakehouse
武子康5 天前
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
大数据·hadoop·clickhouse·hdfs·架构·apache
武子康5 天前
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
java·大数据·clickhouse·架构·flink·系统架构·apache
AAEllisonPang5 天前
ClickHouse 引擎的选择
大数据·数据库·clickhouse
云观秋毫5 天前
APO v0.5.0 发布:可视化配置告警规则;优化时间筛选器;支持自建的ClickHouse和VictoriaMetrics
运维·clickhouse
Biturd5 天前
docker-compose 快速部署clickhouse集群
clickhouse·docker·容器
武子康5 天前
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
java·大数据·clickhouse·flink·kafka·scala·apache