SQL 实战:复杂数据去重与唯一值提取

在实际开发中,数据重复是常见问题,例如用户多次登录记录、订单状态重复更新等。如何高效提取符合业务需求的唯一值或最新记录,对系统性能和数据准确性至关重要。

本文将探讨如何使用 SQL 的 窗口函数分组查询 以及 DISTINCT 实现复杂场景下的数据去重与唯一值提取,避免重复数据干扰业务分析。


一、核心 SQL 函数与技术

函数/技术

说明

示例

DISTINCT

去除重复行,返回唯一记录

SELECT DISTINCT(user_id) FROM logins

GROUP BY

按指定列分组,返回每组的聚合结果

SELECT user_id, MAX(login_time) FROM logins GROUP BY user_id

ROW_NUMBER()

窗口函数,为每组记录编号,通常用于去重或排名

ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY login_time DESC)

RANK()

类似 ROW_NUMBER(),但排名相同记录具有相同序号

RANK() OVER (PARTITION BY user_id ORDER BY score DESC)

DENSE_RANK()

连续排名,不跳跃

DENSE_RANK() OVER (PARTITION BY user_id ORDER BY amount DESC)


二、实战案例

案例 1:查询每个用户的最新登录记录

需求描述

系统中存储了用户的多次登录记录,我们需要提取每个用户最近的一次登录记录,去除重复数据。


表结构 logins

login_id

user_id

login_time

101

1

2024-01-01 08:30:00

102

1

2024-01-02 10:00:00

103

2

2024-01-01 09:15:00

104

2

2024-01-03 14:45:00

105

3

2024-01-02 11:00:00


方法 1:使用 GROUP BY 结合 MAX()
复制代码
SELECT user_id, MAX(login_time) AS latest_login  
FROM logins  
GROUP BY user_id;

查询结果

user_id

latest_login

1

2024-01-02 10:00:00

2

2024-01-03 14:45:00

3

2024-01-02 11:00:00


解释

  • 通过 GROUP BY user_id 对每个用户分组,MAX(login_time) 提取每组中最新的登录时间。
  • 该方法高效,适用于简单去重场景,但无法返回完整的记录(如 login_id)。

方法 2:使用窗口函数 ROW_NUMBER()
复制代码
SELECT login_id, user_id, login_time  
FROM (  
    SELECT login_id, user_id, login_time,  
           ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY login_time DESC) AS rn  
    FROM logins  
) t  
WHERE rn = 1;

查询结果

login_id

user_id

login_time

102

1

2024-01-02 10:00:00

104

2

2024-01-03 14:45:00

105

3

2024-01-02 11:00:00


解释

  • ROW_NUMBER() 为每个用户的登录记录按时间降序排序,并按用户分区。
  • 只保留排名为 1 的记录,即最新的登录记录。
  • 优势 :保留了原始记录的完整性(包括 login_id)。


案例 2:提取每个用户的最高订单金额记录

需求描述

在电商系统中,每个用户可能有多笔订单,我们需要提取每个用户最高的订单记录。


表结构 orders

order_id

user_id

amount

order_time

1001

1

500

2024-01-05 09:00:00

1002

1

800

2024-01-06 14:00:00

1003

2

1200

2024-01-04 16:30:00

1004

2

900

2024-01-05 11:00:00

1005

3

700

2024-01-06 10:00:00


方法 1:使用 RANK() 保留最高金额记录
复制代码
SELECT order_id, user_id, amount, order_time  
FROM (  
    SELECT order_id, user_id, amount, order_time,  
           RANK() OVER (PARTITION BY user_id ORDER BY amount DESC) AS rnk  
    FROM orders  
) t  
WHERE rnk = 1;

查询结果

order_id

user_id

amount

order_time

1002

1

800

2024-01-06 14:00:00

1003

2

1200

2024-01-04 16:30:00

1005

3

700

2024-01-06 10:00:00


解释

  • RANK() 允许处理最高金额相同的情况,例如如果两个订单金额相同,则两条记录都将保留。
  • 区别RANK()DENSE_RANK() 不会跳跃记录,而 ROW_NUMBER() 只保留一条记录。


案例 3:去除重复订单记录,保留最新一笔

需求描述

订单系统中可能存在重复提交的订单记录,如何保留每个用户最新的一笔订单。


SQL 实现
复制代码
DELETE t1  
FROM orders t1  
JOIN orders t2  
ON t1.user_id = t2.user_id  
AND t1.order_time < t2.order_time;

解释

  • 通过自联结(JOIN)比较同一用户的订单时间,保留最新的订单记录,删除早期的重复记录。


三、去重与唯一值提取的优化建议
  1. 使用窗口函数提升性能

    窗口函数如 ROW_NUMBER()RANK() 能够在一次查询中完成分组与排序,减少多次查询操作,提高去重效率。

  2. 索引优化

    在频繁去重或分组查询的场景下,为分组字段(如 user_id)和时间字段(如 login_time)创建索引,可以显著提升查询性能。

    CREATE INDEX idx_user_login ON logins(user_id, login_time DESC);

  3. 聚合函数慎用

    在只需要统计数据时,可以使用 GROUP BYMAX(),但在保留完整记录时,应选择窗口函数进行精细控制。


四、总结
  • 去重策略多样化 :根据业务需求选择合适的去重方法,GROUP BY 适用于简单去重,ROW_NUMBER()RANK() 适用于复杂场景。
  • 窗口函数灵活高效ROW_NUMBER() 等函数可以在保留完整记录的同时,精确筛选唯一值,解决复杂去重需求。
  • 索引优化:在大数据量环境下,合理使用索引能有效提升去重查询的性能。
相关推荐
wang3zc几秒前
使用BERTopic对名言数据集进行批量主题建模的完整实践指南
jvm·数据库·python
SZLSDH2 分钟前
数字孪生IOC的“双引擎”架构:当业务编排遇上渲染管线,如何实现场景适配?
数据库·ai·架构·数字孪生·数据可视化·智能体
nashane3 分钟前
HarmonyOS 6学习:Web组件与JavaScript交互的三大高频问题与终极解决方案
前端·学习·harmonyos
m0_609160495 分钟前
Go语言如何做协程调度_Go语言协程调度原理教程【实用】
jvm·数据库·python
2301_8125396710 分钟前
golang如何实现全量数据迁移_golang全量数据迁移实现详解
jvm·数据库·python
顾随11 分钟前
(2)达梦数据库--SQl基础实践
前端·数据库·sql
键盘飞行员11 分钟前
Windsurf + Claude 4.7 前端开发:用 ui-ux-pro-max 根治 “AI 味”、实现全站 UI 统一
前端·ui·ai编程
IT_陈寒12 分钟前
被JavaScript的隐式类型转换坑到怀疑人生,记录这次离谱经历
前端·人工智能·后端
梦无矶13 分钟前
快速设置npm默认源为国内全局镜像源
前端·npm·node.js
zhaoyong22216 分钟前
uni-app怎么获取短信验证码 uni-app接入短信平台流程【实战】
jvm·数据库·python