MySQL的窗口函数

了解MySQL 8.0的窗口函数确实能让数据查询分析能力大大提升。下面这个表格汇总了核心信息，快速建立整体印象。

特性	描述
官方文档地址	https://dev.mysql.com/doc/refman/8.0/en/window-functions.html
引入版本	MySQL 8.0
核心概念	为每一行计算与其相关的一个"窗口"内数据的聚合或排名，不改变原始行数
关键子句	`OVER(...)`，用于定义窗口范围

💡 窗口函数核心概念

窗口函数，也叫开窗函数或OLAP函数，其核心魅力在于它能够在不折叠查询结果行数的情况下，对与当前行相关的数据子集进行计算。你可以这样理解：

与聚合函数的根本区别 ：使用 GROUP BY 的聚合查询会将多行数据"折叠"成一行摘要结果。而窗口函数则是为每一行数据都附加一个计算结果，原始数据的每一行都得以保留，让你既能得到明细数据，又能看到汇总信息。
关键术语 ：
- 当前行：函数计算所针对的那一行。
- 窗口：由 OVER() 子句定义的、与当前行相关的数据行集合。

📚 窗口函数语法详解

所有窗口函数的核心都是 OVER() 子句，它决定了函数计算的数据范围。

sql 复制代码

函数名([参数]) OVER (
    [PARTITION BY 字段1, 字段2, ...]  -- 将数据分成不同的组，函数在每个组内独立计算
    [ORDER BY 字段1 [ASC|DESC], ...]   -- 决定组内数据的排序顺序，影响计算顺序
    [窗口框架子句]                     -- 定义窗口的精确范围
)

窗口框架 是精准控制计算范围的关键，它使用 ROWS 或 RANGE 来定义：

ROWS ：基于物理行 的距离。例如，ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING 表示窗口包含当前行、前一行和后一行。
RANGE ：基于值的逻辑 距离。例如，RANGE BETWEEN INTERVAL 1 DAY PRECEDING AND CURRENT ROW 会包含所有日期在"当前行日期"及"前一天"的记录。RANGE 通常与 ORDER BY 连用，且排序字段需为数值或日期类型。

如果不显式指定窗口框架，其默认行为是：

如果 OVER() 子句中没有 ORDER BY，则窗口包含分区内所有行。
如果 OVER() 子句中有 ORDER BY，则默认窗口为 RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW（即从分区第一行到当前行）。这一点在使用 LAST_VALUE() 时要特别注意，因为默认情况下它返回的往往是当前行的值。要获取分区的最后一个值，通常需要显式定义窗口：ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING 。

🛠️ 常用窗口函数分类与应用

MySQL窗口函数主要分为以下几类：

1. 排序序函数

这类函数用于为分区内的行生成序号或排名。

ROW_NUMBER()：生成连续且唯一的序号（如：1, 2, 3, 4）。
RANK()：排名相同会占用名次，后续序号不连续（如：1, 1, 3, 4）。
DENSE_RANK()：排名相同不占用名次，后续序号连续（如：1, 1, 2, 3）。

应用场景：查询每个部门内工资排名前三的员工。

sql 复制代码

SELECT 
    employee_id,
    department_id,
    salary,
    ROW_NUMBER() OVER (PARTITION BY department_id ORDER BY salary DESC) as rank_in_dept
FROM employees
WHERE ... ; -- 可先进行过滤

注意：过滤排名结果需使用子查询或CTE，因为窗口函数在WHERE之后执行。

2. 偏移函数

用于访问当前行之前或之后行的数据。

LAG(column, n, default_value) ：获取当前行之前第n行的数据。
LEAD(column, n, default_value) ：获取当前行之后第n行的数据。

应用场景：计算每日销售额相较于前一天的增长率。

sql 复制代码

SELECT
    sales_date,
    daily_sales,
    LAG(daily_sales, 1) OVER (ORDER BY sales_date) as prev_day_sales,
    (daily_sales - LAG(daily_sales, 1) OVER (ORDER BY sales_date)) / LAG(daily_sales, 1) OVER (ORDER BY sales_date) as growth_rate
FROM sales_table;

3. 首尾值函数

用于获取窗口内特定位置的值。

FIRST_VALUE(column)：返回窗口内的第一个值。
LAST_VALUE(column)：返回窗口内的最后一个值（注意默认窗口范围）。
NTH_VALUE(column, n)：返回窗口内第n个值。

4. 聚合函数作为窗口函数

常见的聚合函数（如 SUM(), AVG(), COUNT(), MAX(), MIN()）后加 OVER() 子句，即可作为窗口函数使用，实现如累计求和、移动平均等计算。

应用场景：计算每个员工截至当前月份的累计销售额。

sql 复制代码

SELECT
    sales_employee,
    year,
    sale,
    SUM(sale) OVER (PARTITION BY sales_employee ORDER BY year ROWS UNBOUNDED PRECEDING) as cumulative_sales
FROM sales;

📖 官方文档使用指引

MySQL 8.0官方文档是关于窗口函数最权威、最全面的参考资料。除了主入口，以下几个子页面特别实用：

窗口函数使用概述：https://dev.mysql.com/doc/refman/8.0/en/window-functions-usage.html
窗口函数详细描述：https://dev.mysql.com/doc/refman/8.0/en/window-function-descriptions.html
窗口函数框架规范：https://dev.mysql.com/doc/refman/8.0/en/window-functions-frames.html

官方文档对每个函数的语法、参数、返回值都有严格定义，并提供了丰富的示例，是解决问题时最好的帮手。

使用注意事项

在大数据量表上使用窗口函数确实需要格外小心，否则很容易陷入性能陷阱。下面这个表格汇总了核心的陷阱和应对策略，可以快速建立整体认知。

性能陷阱	对性能的影响	核心解决方案
全量数据扫描	窗口函数计算阶段通常无法利用索引进行高效数据访问，可能导致处理大量数据。	优先使用CTE或子查询进行数据过滤，减少进入窗口函数计算的数据量。
昂贵的排序操作	缺乏合适索引时，`PARTITION BY` 和 `ORDER BY` 会引发高成本的运行时排序，消耗大量CPU和内存。	为窗口函数的分区和排序键创建复合索引，利用数据的预排序来避免临时排序。
不当的窗口定义	过大的窗口（如默认的整个分区）会导致计算量激增，占用大量内存。	使用 `ROWS` 子句精确控制窗口框架的范围，避免全分区计算。
混淆GROUP BY与窗口函数	错误地在窗口函数前进行不必要的 `GROUP BY` 聚合，增加了查询的复杂性。	明确需求：要保留所有明细数据用窗口函数，要聚合摘要数据用 `GROUP BY`。

💡 实用的优化策略

了解了主要陷阱后，这里有一些具体的行动指南，可以绕开它们。

先过滤，后开窗：这是最重要的原则。 窗口函数在 WHERE 子句之后执行。因此，务必先通过子查询或公共表表达式（CTE）尽可能筛选掉不必要的数据，再将结果集交给窗口函数处理。例如，只计算最近一个月数据的排名，而不是在全表上计算。
设计有效的索引： 虽然窗口计算本身难以利用索引，但你可以为 PARTITION BY 和 ORDER BY 中使用的列创建复合索引 。例如，对于 RANK() OVER (PARTITION BY department_id ORDER BY salary DESC)，创建索引 (department_id, salary DESC) 可以让数据库直接按所需顺序读取数据，避免昂贵的临时排序操作。
精确控制窗口范围： 默认的窗口框架可能远大于你的需要。对于移动平均、累计求和等场景，使用 ROWS BETWEEN ... AND ... 子句来明确限制参与计算的行数。例如，ROWS BETWEEN 6 PRECEDING AND CURRENT ROW 仅计算最近7行，这比处理整个分区要高效得多。

🔍 优化实战流程

当面对一个慢查询时，可以遵循以下步骤来诊断和优化：

使用 EXPLAIN 分析： 第一要务是使用 EXPLAIN 或 EXPLAIN ANALYZE 命令查看查询执行计划。重点关注是否有全表扫描（Seq Scan）、昂贵的排序操作（Sort）以及窗口函数计算（WindowAgg）的成本估算。
检查索引使用情况： 确认执行计划是否使用了期望的索引。如果没有，可能需要调整索引或使用查询提示。
考虑替代方案： 在极端情况下，如果即使优化后性能仍不满足要求，可以考虑更彻底的方案，如使用物化视图 定期预计算结果，或拆分成多个步骤的批量处理。

总而言之，窗口函数非常强大，但要驾驭好它，关键在于严格控制输入的数据量 、善用索引优化排序 以及精确界定计算窗口。