记一次在一亿数据的大表里删除重复数据 by 勤勤学长

场景

10月11日,某个用户出现了信息重复推送,导致出现重复数据,影响到了统计。

需要通过用户ID、时间戳、事件,找出相同msgid字段相同的数据,并删除。

已知,表有接近1亿条数据。

解决

查询重复数据

查看表索引,刚好有匹配的索引

sql 复制代码
 KEY `idx_storeid_event_ctime` (`store_id`,`event`,`ctime`),
sql 复制代码
SELECT
    msgid,
    COUNT(*) AS duplicate_count,
    min(id) as id
FROM
    `user_msg_list`
WHERE
    store_id = 233
    AND ctime > 1728615600
    AND ctime < 1728622800
    AND `event` = 'EventGroupChat'
GROUP BY
    msgid
HAVING
    COUNT(*) > 1;
# 查询的时候不要用 order by id desc
# 否则查询的时候,因为缺少id的索引,引起慢查询。
遍历删除

防止删除到其他的数据,所以还得把前边的条件一起放进来

sql 复制代码
DELETE 
FROM
	user_msg_list` 
WHERE
		store_id = 233
    AND ctime > 1728615600
    AND ctime < 1728622800
    AND `event` = 'EventGroupChat'
		AND id != 10086
		AND msgid !=318692996

项目上完整代码

我用的是thinkphp框架

php 复制代码
$where = "store_id = 233
            AND ctime > 1728615600
            AND ctime < 1728622800
            AND `event` = 'EventGroupChat'";

        $data = Db::table("user_msg_list")->where($where)->field("msgid,COUNT(*) AS duplicate_count,min(id) as id")->group("msgid")->having("COUNT(*) > 1")
            ->select()->toArray();

        foreach ($data as $v) {
            $id = $v['id'];
            $msgid = $v['msgid'];
            $msgIds = Db::table("user_msg_list")
                ->where($where)
                ->where("id!={$id}")
                ->where("msgid", $msgid)
                ->column("id");
            $res = Db::table("user_msg_list")->whereIn('id',$msgIds)->delete();
            dump($res);
        }

结束

数据太多了,动不动就是几秒都还无结果,3秒无结果的时候我都会停止运行。

防止出现缩表影响到正常业务的开展。

相关推荐
SelectDB17 小时前
Litefuse 开源并推出单进程轻量模式,25 秒就能跑起来的 Agent 可观测与评估平台
运维·后端·自动化运维
zzzzzz3102 天前
9K Star 炸裂开源!这个 C 语言写的代码知识图谱,把 Linux 内核索引压缩到了 3 分钟
linux·服务器·sql
XIAOHEZIcode2 天前
Linux系统鼠标偏移常见原因以及修复方案
linux·运维·游戏
用户0328472220703 天前
如何搭建本地yum源(上)
运维
大树886 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
摇滚侠6 天前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql
霸道流氓气质6 天前
领域驱动设计(DDD)在 Spring Boot 微服务中的实践指南
运维·spring boot·微服务
小宇宙Zz6 天前
Maven依赖冲突
java·服务器·maven
qq_369224336 天前
Windows全系通用!ntdll.dll文件丢失、报错、闪退问题的完整排查与修复教程
windows·dll·dll修复·dll丢失·dll错误
Inhand陈工6 天前
基于台达PLC与映翰通IG502的智慧水产养殖精准投喂与远程运维解决方案
运维·人工智能·物联网·阿里云·信息与通信