掌握 SQL 窗口函数:分组、排名与最新记录获取的最佳实践

文章目录

在写 SQL 时都会遇到一个经典需求:

按某个字段分组(比如设备、用户、订单),取每组最新一条 / Top N 条记录

同时还想做:排名、累计统计、取上一条/下一条记录

但又不想把数据 GROUP BY 之后"压扁"

这时就轮到 窗口函数(Window Function) 出场了。


一、窗口函数是什么

窗口函数 = 在"分组后的行集合"上做计算,但不合并行

它和 GROUP BY 最大的区别:

  • GROUP BY:把多行汇总成一行(明细没了)
  • 窗口函数:明细保留,但能在每一行上得到组内计算结果

二、窗口函数的统一写法

窗口函数都有这个结构:

sql 复制代码
函数名(...) OVER (
    PARTITION BY ...
    ORDER BY ...
    [ROWS / RANGE ...]
)

你可以理解为:

  • PARTITION BY:按什么分组(逻辑分组,不合并行)
  • ORDER BY:组内按什么排序
  • OVER:声明这是窗口函数

三、最常见需求:每组取最新一条记录

假设你有一张表:

  • resource_key:分组字段(比如设备ID/用户ID)
  • createtime:时间字段

✅ 推荐写法(最稳)

sql 复制代码
SELECT id, resource_key, longitude, latitude, createtime
FROM (
    SELECT *,
           ROW_NUMBER() OVER (
               PARTITION BY resource_key
               ORDER BY createtime DESC, id DESC
           ) AS rn
    FROM track_data
) t
WHERE rn = 1;

为什么要加 id DESC

因为实际数据里经常出现:

  • 同一组内
  • 同一时间戳 createtime
  • 有多条记录

只写 ORDER BY createtime DESC 时,"哪条排第一"可能不稳定。

加上 id DESC 就能保证:同时间戳时取 id 最大那条,结果稳定。


四、窗口函数四大类

① 排名类(最常用)

1️⃣ ROW_NUMBER(每行唯一编号)

sql 复制代码
ROW_NUMBER() OVER (
  PARTITION BY key
  ORDER BY createtime DESC
)

特点:不管值是否相同,编号都递增:1、2、3...

用途:

  • 每组最新 1 条(rn=1)
  • 每组 Top N 条(rn<=N)

2️⃣ RANK(允许并列,会跳号)

sql 复制代码
RANK() OVER (...)

例子:

createtime RANK
10:00:05 1
10:00:05 1
10:00:03 3

用途:排名场景、允许并列名次


3️⃣ DENSE_RANK(允许并列,不跳号)

sql 复制代码
DENSE_RANK() OVER (...)

用途:等级分层、分段统计


② 聚合类窗口函数(统计但不合并行)

COUNT / SUM / AVG / MAX / MIN OVER

sql 复制代码
COUNT(*) OVER (PARTITION BY key) AS cnt

用途:

  • 每行旁边展示"该组一共有多少条"
  • 不需要 GROUP BY,明细仍保留

③ 偏移类(上一条/下一条)

⭐ LAG:上一条记录的值

sql 复制代码
LAG(longitude) OVER (
  PARTITION BY key
  ORDER BY createtime
) AS prev_lng

用途:

  • 取上一条数据做对比
  • 计算差值(如金额差、数值变化)

LEAD:下一条记录的值

sql 复制代码
LEAD(createtime) OVER (...) AS next_time

用途:

  • 计算"本条到下一条"的间隔
  • 分段分析

④ 首尾值函数(组内第一/最后)

FIRST_VALUE

sql 复制代码
FIRST_VALUE(createtime) OVER (
  PARTITION BY key
  ORDER BY createtime DESC
) AS newest_time

LAST_VALUE(注意窗口范围)

默认容易踩坑,建议显式指定窗口范围:

sql 复制代码
LAST_VALUE(createtime) OVER (
  PARTITION BY key
  ORDER BY createtime
  ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING
) AS last_time

五、为什么 GROUP BY 不能直接查出整条最新记录?

很多人会写:

sql 复制代码
SELECT key, MAX(createtime)
FROM t
GROUP BY key;

这只能得到 每组最大时间 ,但拿不到这条时间对应的其它字段(经度、纬度等)。

你如果强行把其它字段也 select 出来:

sql 复制代码
SELECT key, createtime, longitude
FROM t
GROUP BY key;

数据库会报错(标准 SQL 不允许),原因是:

同一个 key 有多行,longitude 有多个候选值,数据库不知道该选哪个

所以要么:

  • GROUP BY + MAX + JOIN(能拿回整行,但写法更绕)
  • 用窗口函数(更直观、可拓展 TopN)

六、实用的几个模板

1)每组 Top 3

sql 复制代码
SELECT *
FROM (
  SELECT *,
         ROW_NUMBER() OVER (PARTITION BY key ORDER BY createtime DESC) rn
  FROM t
) x
WHERE rn <= 3;

2)每组统计条数 + 保留明细

sql 复制代码
SELECT *,
       COUNT(*) OVER (PARTITION BY key) AS group_cnt
FROM t;

3)对比上一条数据

sql 复制代码
SELECT *,
       LAG(value) OVER (PARTITION BY key ORDER BY createtime) AS prev_value
FROM t;

七、总结

ROW_NUMBER 只是窗口函数的入口

窗口函数真正强大之处在于:
既能做分组计算,又能保留每一行明细

常用记忆法:

  • 取最新 / TopNROW_NUMBER
  • 排名RANK / DENSE_RANK
  • 统计但保留明细COUNT/SUM/AVG OVER
  • 上一条/下一条LAG / LEAD
  • 组内首尾FIRST_VALUE / LAST_VALUE
相关推荐
jiayou6411 小时前
KingbaseES 实战:深度解析数据库对象访问权限管理
数据库
于眠牧北12 小时前
MySQL的锁类型,表锁,行锁,MVCC中所使用的临键锁
mysql
李广坤1 天前
MySQL 大表字段变更实践(改名 + 改类型 + 改长度)
数据库
Turnip12022 天前
深度解析:为什么简单的数据库"写操作"会在 MySQL 中卡住?
后端·mysql
爱可生开源社区2 天前
2026 年,优秀的 DBA 需要具备哪些素质?
数据库·人工智能·dba
随逸1773 天前
《从零搭建NestJS项目》
数据库·typescript
加号33 天前
windows系统下mysql多源数据库同步部署
数据库·windows·mysql
シ風箏3 天前
MySQL【部署 04】Docker部署 MySQL8.0.32 版本(网盘镜像及启动命令分享)
数据库·mysql·docker
李慕婉学姐3 天前
Springboot智慧社区系统设计与开发6n99s526(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
数据库·spring boot·后端
百锦再3 天前
Django实现接口token检测的实现方案
数据库·python·django·sqlite·flask·fastapi·pip