Percona pt-archiver 出现数据不对等

python 复制代码
#!/bin/env python

import datetime
import subprocess
import time

def __do_archiver(file_name, where_condition):
    file = f'/tmp/{file_name}.txt'
    subprocess.call(["/usr/bin/touch", file])

    command = [
        "/root/percona-toolkit-3.7.0/bin/pt-archiver",
        "--source",
        "t=api_third_receive_record,i=idx_create_time",
        "--database=db0",
        "--password=9527",
        "--user=root",
        "--port=3306",
        "--host=192.168.10.11",
        f'--file={file}',
        f"--where={where_condition}",
        "--charset=utf8",
        "--no-version-check",
        "--no-check-charset",
        "--progress=500",
        "--limit=500",
        "--txn-size=500",
        "--statistics",
        "--no-safe-auto-increment",
        "--bulk-delete",
        "--purge"
    ]
    print('Command', command)
    subprocess.call(command)

def do_archiver(start_date, end_date):
    date_format = '%Y-%m-%d'
    file_format = '%Y_%m_%d'
    start_date_time = datetime.datetime.strptime(start_date, date_format)
    end_date_time = datetime.datetime.strptime(end_date, date_format)
    while start_date_time <= end_date_time:
        file_name = start_date_time.strftime(file_format)

        prev_date_time = start_date_time + datetime.timedelta(days=-1)
        next_date_time = start_date_time + datetime.timedelta(days=1)

        print('Executing', start_date_time.strftime(date_format))
        where_condition = f'create_time>="{start_date_time.strftime(date_format)} 00:00:00" AND create_time<="{start_date_time.strftime(date_format)} 23:59:59"'
        __do_archiver(file_name, where_condition)
        time.sleep(5)
        start_date_time = next_date_time


if __name__ == '__main__':
    do_archiver("2022-11-21", "2022-11-21")

使用 pt-archiver 命令, 按天将 api_third_receive_record 表数据归档到文件里, 并删除表数据. WHERE 条件是按照创建时间筛选, 并使用 idx_create_time 索引.

版本 percona-toolkit-3.7.0

在实际执行时, 会出现表数据已经归档到文件里了, 但是表里还有少许数据没有被删除掉.

通过查询通用日志, 查看到执行的部分SQL语句

sql 复制代码
SELECT * FROM `db0`.`api_third_receive_record` FORCE INDEX(`idx_create_time`) WHERE (create_time>="2022-11-21 00:00:00" AND create_time<="2022-11-21 23:59:59") ORDER BY `create_time` LIMIT 500

DELETE FROM `db0`.`api_third_receive_record` WHERE (((`create_time` >= '2022-11-21 00:03:19.000'))) AND (((`create_time` <= '2022-11-21 15:27:53.000'))) AND (create_time>="2022-11-21 00:00:00" AND create_time<="2022-11-21 23:59:59") LIMIT 500

SELECT * FROM `db0`.`api_third_receive_record` FORCE INDEX(`idx_create_time`) WHERE (create_time>="2022-11-21 00:00:00" AND create_time<="2022-11-21 23:59:59") AND ((`create_time` >= '2022-11-21 15:27:53.000')) ORDER BY `create_time` LIMIT 500

DELETE FROM `db0`.`api_third_receive_record` WHERE (((`create_time` >= '2022-11-21 15:28:20.000'))) AND (((`create_time` <= '2022-11-21 23:56:28.000'))) AND (create_time>="2022-11-21 00:00:00" AND create_time<="2022-11-21 23:59:59") LIMIT 500

SELECT 查询时是使用索引并排序, 但DELETE 时没有使用索引

修改 pt-archiver 脚本文件, 在删除的逻辑里新增 ORDER BY $index_cols 内容

再次执行归档动作, DELETE 语句使用ORDER BY 排序, 数据也和期望一样.

sql 复制代码
DELETE FROM `db0`.`api_third_receive_record` WHERE (((`create_time` >= '2022-11-21 00:03:19.000'))) AND (((`create_time` <= '2022-11-21 15:27:53.000'))) AND (create_time>="2022-11-21 00:00:00" AND create_time<="2022-11-21 23:59:59") ORDER BY `create_time` LIMIT 500

执行计划, 也使用了 idx_create_time 索引

相关推荐
夏贰四4 小时前
数据建模工具如何筑牢数据根基?数据建模工具怎样落实标准体系?
数据库·数学建模·数据建模工具
Sincerelyplz4 小时前
【AI会议纪要实践】mapReduce、RAG 与结构化输出
java·后端·agent
专注VB编程开发20年4 小时前
安卓APP与服务器通讯技术,文件传输和文字消息收发
运维·服务器
过期动态4 小时前
【LeetCode 热题 100】接雨水
java·数据结构·算法·leetcode·职场和发展
zhangjw345 小时前
第15篇:Java多线程零基础入门,进程线程、线程创建方式、线程生命周期、线程安全彻底吃透
java·开发语言·面试
蝈理塘(/_\)大怨种5 小时前
类和对象 (上)
java·开发语言
程序猿阿伟5 小时前
《一套完整方法论:搞定图形应用的Docker镜像优化》
数据库·docker·容器
lihui_cbdd5 小时前
HPC 集群上 OpenMM GPU 多版本安装实战指南
运维·服务器·人工智能·计算化学
二等饼干~za8986686 小时前
geo优化源码开发搭建技术分享
大数据·网络·数据库·人工智能·音视频
Xpower 176 小时前
MCP 服务器暴露在公网:AI Agent 工具层正在变成新的安全边界
服务器·人工智能·安全