记一次在一亿数据的大表里删除重复数据 by 勤勤学长

场景

10月11日,某个用户出现了信息重复推送,导致出现重复数据,影响到了统计。

需要通过用户ID、时间戳、事件,找出相同msgid字段相同的数据,并删除。

已知,表有接近1亿条数据。

解决

查询重复数据

查看表索引,刚好有匹配的索引

sql 复制代码
 KEY `idx_storeid_event_ctime` (`store_id`,`event`,`ctime`),
sql 复制代码
SELECT
    msgid,
    COUNT(*) AS duplicate_count,
    min(id) as id
FROM
    `user_msg_list`
WHERE
    store_id = 233
    AND ctime > 1728615600
    AND ctime < 1728622800
    AND `event` = 'EventGroupChat'
GROUP BY
    msgid
HAVING
    COUNT(*) > 1;
# 查询的时候不要用 order by id desc
# 否则查询的时候,因为缺少id的索引,引起慢查询。
遍历删除

防止删除到其他的数据,所以还得把前边的条件一起放进来

sql 复制代码
DELETE 
FROM
	user_msg_list` 
WHERE
		store_id = 233
    AND ctime > 1728615600
    AND ctime < 1728622800
    AND `event` = 'EventGroupChat'
		AND id != 10086
		AND msgid !=318692996

项目上完整代码

我用的是thinkphp框架

php 复制代码
$where = "store_id = 233
            AND ctime > 1728615600
            AND ctime < 1728622800
            AND `event` = 'EventGroupChat'";

        $data = Db::table("user_msg_list")->where($where)->field("msgid,COUNT(*) AS duplicate_count,min(id) as id")->group("msgid")->having("COUNT(*) > 1")
            ->select()->toArray();

        foreach ($data as $v) {
            $id = $v['id'];
            $msgid = $v['msgid'];
            $msgIds = Db::table("user_msg_list")
                ->where($where)
                ->where("id!={$id}")
                ->where("msgid", $msgid)
                ->column("id");
            $res = Db::table("user_msg_list")->whereIn('id',$msgIds)->delete();
            dump($res);
        }

结束

数据太多了,动不动就是几秒都还无结果,3秒无结果的时候我都会停止运行。

防止出现缩表影响到正常业务的开展。

相关推荐
程序猿_极客16 小时前
【2025 年最新版】Java JDK 安装与环境配置教程(附图文超详细,Windows+macOS 通用)
java·开发语言·windows·macos·jdk
杨靳言先19 小时前
✨【运维实战】内网服务器无法联网?巧用 SSH 隧道实现反向代理访问公网资源 (Docker/PortForwarding)
服务器·docker·ssh
C++ 老炮儿的技术栈19 小时前
在C++ 程序中调用被 C编译器编译后的函数,为什么要加 extern “C”声明?
c语言·c++·windows·git·vscode·visual studio
Justice link21 小时前
K8S基本配置
运维·docker·容器
观熵21 小时前
SaaS 系统的自动化部署结构设计实战指南:基于 K8s + Helm 的工程落地路径
运维·kubernetes·自动化·saas 架构
chinesegf21 小时前
ubuntu中虚拟环境的简单创建和管理
linux·运维·ubuntu
若涵的理解21 小时前
一文读懂K8S kubectl 命令,运维小白必看!
运维·docker·kubernetes
java_logo21 小时前
2025 年 11 月最新 Docker 镜像源加速列表与使用指南
linux·运维·docker·容器·运维开发·kylin
pVPkTAeVGPdZ21 小时前
码垛机器人分析与仿真:基于Matlab Simulink Simscape的探索
windows
峰顶听歌的鲸鱼1 天前
Kubernetes管理
运维·笔记·云原生·容器·kubernetes·云计算