导出重复问题记录-bugs专辑

左灯右行的爱情2026-01-29 11:54

导出重复问题记录

一、问题记录

1) 背景与现象

业务场景：导出报表（接口 Reportinfo/createReport，reporttype=9999），列表查询接口为 queryAnomalyStationPage。
现象：
- 首页分页查询没有重复。
- 按小单编号查单条导出也无重复。
- 按"合作机构名称"筛选批量导出时出现少量重复行。
- 导出行数与列表总数一致，但去重后总数对不上。

2) 影响

导出结果包含重复行，导致实际有效数据缺失。
用户感知为"总数对得上但数据有重复"，影响数据可信度。

3) 问题定位

导出流程采用分页拉取数据，但 SQL 仅按 create_time 排序。
create_time 不是唯一字段，同一时间戳可能存在多条记录。

当排序键不唯一时，数据库对这些记录的返回顺序不稳定，分页边界会发生抖动，进而导致：

某一页的尾部记录在下一页再次出现（重复）。
对应的另一条记录被挤到上一页或被漏掉（遗漏）。
总行数仍然与 count 对齐，但数据内容不一致。

4) 解决思路

为分页排序添加唯一性，保证顺序稳定。例如：

order by create_time desc, id desc（在时间相同的情况下用主键做稳定排序）。

注意：

如果直接修改通用分页 SQL，会影响所有依赖该查询的接口排序行为。

若需要局部修复，可新增导出专用查询或在导出路径中追加稳定排序。

5) 验证方式

使用相同筛选条件重复导出两次，对比是否出现重复行。
对比导出结果去重后的数量与分页查询总数是否一致。

二、知识教程（相关知识点）

1) 分页一致性问题

问题本质： 使用 offset/limit 分页时，如果排序字段不是唯一键，数据库返回顺序不确定。
结果： 跨页请求会出现重复或遗漏。

2) 解决策略对比

稳定排序（最小改动）
- 做法：order by create_time desc, id desc
- 优点：改动小，直接修复导出重复问题
- 缺点：会影响所有使用该查询的排序结果
Keyset Pagination（游标分页）
- 做法：用 where (create_time, id) < (?, ?) 取下一页
- 优点：性能好，顺序稳定
- 缺点：实现成本稍高，需要前后端配合
一致性快照
- 做法：在同一事务里查询 count 和分页数据，或者固定一个时间点快照
- 优点：强一致
- 缺点：实现复杂，可能有性能成本

3) 为什么"总数对得上，但去重后对不上"

分页查询每一页的数量合计仍然等于 count，

但因为顺序不稳定，部分记录被重复，另一些记录被遗漏。

因此去重后会小于总数。

上一篇：大模型开发手记（二）：基于 LangChain 的 RAG 架构全面解析与落地实践

下一篇：高维子集和&子集染色问题

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08【AI前线观察】2026年国产开源大模型全面横评：从 DeepSeek V4 到 Kimi K3，谁才是开发者的最优选择？092026 年 AI 大模型 & AI 编程工具实战全总结 102026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元