面试备考-Hive窗口函数

写在开始：

准备开始找工作了，为了更好的面试，接下来会在一段时间，借助AI能力，整理一些可能需要的知识点。希望大家也能找到合适的工作。

基础部分-Hive窗口函数

Hive 窗口函数的考察重点通常不在于"会不会用"，而在于底层执行原理的理解 （如数据倾斜、Shuffle 次数）以及复杂业务逻辑的拆解能力。

以下我为你整理的高频窗口函数速查表及深度最佳实践。

🚀 核心窗口函数速查表

面试中常考的主要是三类：排名、偏移、聚合。

函数类别	函数名	核心特点与区别	典型场景
排名函数	`ROW_NUMBER()`	连续排序，无并列 (1,2,3...)	取Top N、去重（配合分组）
	`RANK()`	跳跃排序，有并列 (1,1,3...)	竞赛排名（并列后跳名次）
	`DENSE_RANK()`	密集排序，有并列 (1,1,2...)	竞赛排名（并列后不跳名次）
偏移函数	`LAG(col, n)`	向前取数（上N行）	环比、同比、上一次行为
	`LEAD(col, n)`	向后取数（下N行）	下一次行为预测、流失判断
	`FIRST_VALUE()`	取窗口内第一行	首次留存、首单金额
	`LAST_VALUE()`	取窗口内最后一行	截止当前的最后状态
分布函数	`NTILE(n)`	分桶（将数据分为 N 组）	百分位分析、数据分片
	`CUME_DIST()`	累积分布	数据占比分析

💡 高频面试考点与最佳实践

1. `RANK` / `DENSE_RANK` / `ROW_NUMBER` 的底层区别

原理：三者都基于 OVER(PARTITION BY ... ORDER BY ...)。
- ROW_NUMBER：纯粹的物理行号，即使排序字段值相同，行号也不同。
- RANK：如果值相同，则排名相同，但会占用后续的名次数。例如：(90, 90, 80) -> (1, 1, 3)。
- DENSE_RANK：值相同排名相同，但不占用后续名次数。例如：(90, 90, 80) -> (1, 1, 2)。
面试话术 ：在计算"班级排名"时，如果要求并列第一后下一个名次是第二，用 DENSE_RANK；如果要求跳过（即第二名不存在），用 RANK。

2. `LAG` / `LEAD` 的默认窗口与陷阱

原理：用于访问窗口内其他行的数据，常用于时间序列分析。
陷阱：LAG 取不到数据时返回 NULL。在计算增长率时，如果未处理 NULL，会导致结果为 NULL 而不是 0 或具体数值。

最佳实践 ：务必配合 COALESCE 或 IFNULL 使用。

sql 复制代码

-- 计算每日环比
(sales - LAG(sales, 1) OVER (ORDER BY date)) / LAG(sales, 1) OVER (ORDER BY date)
-- 改进：防止除以NULL或0
(sales - COALESCE(LAG(sales, 1) OVER (ORDER BY date), 0)) / NULLIF(COALESCE(LAG(sales, 1) OVER (ORDER BY date), 0), 0)

3. `FIRST_VALUE` 与 `LAST_VALUE` 的默认窗口陷阱 (高频)

坑点：LAST_VALUE 很容易写错。因为在窗口函数中，如果不显式指定窗口范围，默认范围是 RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW（从第一行到当前行）。
后果：LAST_VALUE 在默认窗口下，实际上取的是"截止到当前行的最后一行"，而不是"整个分区的最后一行"。

修正：

sql 复制代码

-- 错误写法：取不到真正的最后一行
LAST_VALUE(salary) OVER (PARTITION BY dept ORDER BY hire_date)

-- 正确写法：必须显式指定窗口为整个分区
LAST_VALUE(salary) OVER (PARTITION BY dept ORDER BY hire_date 
                        ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING)
-- 或者更高效的方式：使用 FIRST_VALUE 配合逆序
FIRST_VALUE(salary) OVER (PARTITION BY dept ORDER BY hire_date DESC)

4. 窗口范围 (`ROWS` vs `RANGE`) 的性能差异

ROWS BETWEEN ：基于物理行数。例如 ROWS BETWEEN 2 PRECEDING AND CURRENT ROW（取当前行及前两行）。
- 性能：推荐。计算简单，性能好。
RANGE BETWEEN ：基于排序字段的值。例如 RANGE BETWEEN 1 PRECEDING AND CURRENT ROW（取排序字段值在 [当前值-1, 当前值] 范围内的行）。
- 性能：慎用。需要对值进行计算和匹配，性能较差，且容易产生数据倾斜（如果某个值重复极高）。
- 注意：RANGE 在 Hive 中对 ORDER BY 的字段类型有要求，通常用于数值或时间间隔。

5. 避免数据倾斜与多次 Shuffle (高级考点)

问题：如果一个 SELECT 语句中包含多个窗口函数，且它们的 PARTITION BY 和 ORDER BY 不一致，会导致数据被多次 Shuffle 和排序。
优化策略 ：
1. 合并窗口定义 ：尽量让多个函数共用同一个 OVER 子句。
2. 子查询拆分：如果无法共用，考虑将不同窗口逻辑拆分到不同的子查询中，或者先通过 CTE 将数据准备好，减少主查询的计算复杂度。
3. 利用排序复用 ：在 Hive 2.x+ 中，如果多个窗口函数的 PARTITION BY 相同，仅 ORDER BY 不同，优化器可能会尝试复用排序结果，但在老版本中需手动干预。

6. `COUNT` / `SUM` 配合 `ORDER BY` 的默认行为

原理：聚合函数作为窗口函数时，如果不写窗口范围，默认是 RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW。

示例：

sql 复制代码

SUM(salary) OVER (PARTITION BY dept ORDER BY hire_date)
-- 等价于
SUM(salary) OVER (PARTITION BY dept ORDER BY hire_date 
                  RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW)
-- 这就是"累计求和"的由来。

面试话术 ：如果我想要计算"部门总薪资"，必须去掉 ORDER BY ，或者显式写上 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING，否则结果会是截止到当前行的累计值，而不是总数。

实际很多场景，直接就是 SUM(salary) OVER (PARTITION BY dept），并不会加order by ~~en 我好像也没有用过上面的设置。应该是特定分析场景下，比如有需要分析趋势（如：复购率、留存、日活累计）时，才会给聚合函数加上 ORDER BY，如果面试官问到这个默认值，你可以这样回答："这个默认值主要服务于累计计算场景。但在实际开发中，我们使用 SUM 往往是为了求总量，这时候我们不会写 ORDER BY，因为写排序不仅浪费性能（引发不必要的排序操作），而且逻辑上也不符合'求总数'的需求。"

关于避免数据倾斜与多次 Shuffle

这个问题在高级数仓面试中非常关键。面试官想考察的不仅仅是你会不会写 SQL，而是你是否理解 Hive 执行引擎（特别是 MapReduce/Tez）的物理执行过程。

简单来说：每一个不同的 OVER(PARTITION BY ... ORDER BY ...) 在底层都可能对应一次独立的 Shuffle 和 Sort 操作。 这是性能杀手。

以下我为你整理的深度解析与实战案例。

🚀 核心原理：为什么会产生多次 Shuffle？

在 Hive 中，窗口函数的执行依赖于数据的分布和顺序：

Shuffle (分区) ：由 PARTITION BY 决定。它确保相同 Key 的数据在同一个 Reducer/Task 中。
Sort (排序) ：由 ORDER BY 决定。它确保数据在 Task 内部是有序的，以便计算 LAG 或累计值。

陷阱：如果你在一个 SELECT 中写了两个窗口函数，且它们的 PARTITION BY 或 ORDER BY 不一致，Hive 无法"复用"上一次的排序结果，它必须：

第一次：按 A 字段 Shuffle & Sort。
第二次：按 B 字段重新 Shuffle & Sort。
结果：数据在网络中传输了两次（Shuffle 2次），磁盘 IO 增加，任务卡在 99%。

💡 优化策略与实战案例

策略一：合并窗口定义 (最直接的优化)

原则：如果多个函数的逻辑允许，强制它们共用同一个 OVER 子句。

场景：计算每个部门的累计销售额，同时计算每个部门的总销售额。

错误写法 (产生 2 次 Shuffle)：

sql 复制代码

SELECT 
    dept,
    date,
    sales,
    -- 第一次 Shuffle: PARTITION BY dept ORDER BY date
    SUM(sales) OVER (PARTITION BY dept ORDER BY date) AS running_sum, 
    -- 第二次 Shuffle: PARTITION BY dept (无 ORDER BY，但分区逻辑虽同，排序逻辑不同，旧版本可能不复用)
    SUM(sales) OVER (PARTITION BY dept) AS total_sum
FROM sales_table;

注：虽然分区相同，但一个需要排序（累计），一个不需要排序（总数）。在老版本 Hive 中，这通常会被拆成两个 Job。

优化写法 (利用默认窗口，共用 1 次 Shuffle)：

sql 复制代码

SELECT 
    dept,
    date,
    sales,
    SUM(sales) OVER w AS running_sum, -- 利用窗口别名
    SUM(sales) OVER (PARTITION BY dept) AS total_sum -- 注意：这里虽然没用w，但优化器通常能识别
FROM sales_table
WINDOW w AS (PARTITION BY dept ORDER BY date); -- 定义窗口别名

或者更极致的写法，利用 RANGE 的默认行为，总数可以通过 FIRST_VALUE + 逆序取到，但这通常用于取值而非求和。

策略二：子查询拆分 / CTE 预处理 (解决复杂逻辑)

原则：如果必须有不同的分区逻辑，把它们拆到不同的子查询（或 CTE）中。虽然表被扫了多次，但避免了昂贵的 Shuffle。

场景：需要同时计算"按部门排名"和"按全公司排名"。

错误写法 (极大概率产生 2 次 Shuffle)：

sql 复制代码

SELECT 
    user_id,
    dept,
    score,
    ROW_NUMBER() OVER (PARTITION BY dept ORDER BY score DESC) AS dept_rank,
    ROW_NUMBER() OVER (ORDER BY score DESC) AS global_rank -- 这里没有 PARTITION BY，逻辑完全不同
FROM user_scores;

优化写法 (拆分逻辑)：

sql 复制代码

WITH dept_data AS (
    -- 第一层：计算部门排名 (Shuffle 1次)
    SELECT 
        user_id,
        dept,
        score,
        ROW_NUMBER() OVER (PARTITION BY dept ORDER BY score DESC) AS dept_rank
    FROM user_scores
),
global_data AS (
    -- 第二层：计算全局排名 (Shuffle 1次，但与上面并行)
    SELECT 
        user_id,
        ROW_NUMBER() OVER (ORDER BY score DESC) AS global_rank
    FROM user_scores
)
-- 第三层：关联结果 (如果必须在同一行展示)
SELECT a.*, b.global_rank
FROM dept_data a
JOIN global_data b ON a.user_id = b.user_id;

注意：虽然多了一次 Join，但两次窗口计算是独立的，且可以利用并行执行（hive.exec.parallel=true），总耗时通常小于串行的两次 Shuffle。

策略三：利用排序复用 (Hive 2.x+ 特性)

原则：了解优化器的自动优化能力，避免过度优化。

原理：在 Hive 2.x 及以上版本（特别是使用 Tez 引擎时），优化器变得更加智能。如果多个窗口函数的 PARTITION BY 相同，即使 ORDER BY 不同，优化器可能会尝试复用排序结果，或者将多个逻辑合并到一个 Operator 中。
面试话术 ：
- "在老版本 Hive (1.x) 中，不同的 ORDER BY 必然导致多次 Shuffle。"
- "但在新版本中，优化器会尝试进行 Windowing Optimizations 。例如，如果两个窗口的 PARTITION BY 一致，优化器可能会将它们放在同一个 ReduceSinkOperator 中处理，从而复用 Shuffle 过程。"
- 但是：我们不能完全依赖优化器。如果 SQL 非常复杂，手动拆分（策略二）依然是最稳妥的方案，因为可以明确控制执行计划。

📝 面试总结金句

底层逻辑 ："窗口函数的 PARTITION BY 决定 Shuffle，ORDER BY 决定 Sort。不同的分区或排序逻辑意味着不同的物理执行阶段。"
优化手段 ："为了避免多次 Shuffle，我会优先使用 CTE (公共表表达式) 将不同窗口逻辑拆解，或者利用 WINDOW 子句 定义别名强制复用。在资源允许的情况下，利用并行执行（Parallel Execution）处理不同逻辑，往往比串行的多次 Shuffle 更快。"
版本差异："老版本 Hive 对窗口函数的优化较弱，必须手动干预；新版本优化器虽然强大，但在超大数据量下，显式的拆分逻辑依然是最安全的兜底方案。"

面试备考-Hive窗口函数

基础部分-Hive窗口函数

🚀 核心窗口函数速查表

💡 高频面试考点与最佳实践

1. RANK / DENSE_RANK / ROW_NUMBER 的底层区别

2. LAG / LEAD 的默认窗口与陷阱

3. FIRST_VALUE 与 LAST_VALUE 的默认窗口陷阱 (高频)

4. 窗口范围 (ROWS vs RANGE) 的性能差异

5. 避免数据倾斜与多次 Shuffle (高级考点)

6. COUNT / SUM 配合 ORDER BY 的默认行为

关于避免数据倾斜与多次 Shuffle

🚀 核心原理：为什么会产生多次 Shuffle？

💡 优化策略与实战案例

策略一：合并窗口定义 (最直接的优化)

策略二：子查询拆分 / CTE 预处理 (解决复杂逻辑)

策略三：利用排序复用 (Hive 2.x+ 特性)

📝 面试总结金句

1. `RANK` / `DENSE_RANK` / `ROW_NUMBER` 的底层区别

2. `LAG` / `LEAD` 的默认窗口与陷阱

3. `FIRST_VALUE` 与 `LAST_VALUE` 的默认窗口陷阱 (高频)

4. 窗口范围 (`ROWS` vs `RANGE`) 的性能差异

6. `COUNT` / `SUM` 配合 `ORDER BY` 的默认行为