Hive窗口函数整理

Hive 中的窗口函数允许你在结果集的一个特定"窗口"内对行进行计算。这些窗口可以是物理的(基于行在数据中的实际位置)或逻辑的(基于行的一些排序标准)。窗口函数在处理排名、计算累计和或计算移动平均值等问题时特别有用。

以下是一些 Hive 中的常见窗口函数:

  1. ROW_NUMBER()

    • 为窗口中的每一行分配一个唯一的整数编号。
    • 示例:ROW_NUMBER() OVER (ORDER BY column_name)
  2. RANK()

    • 为窗口中的每一行分配一个唯一的排名,对于并列的值会有相同的排名,并且会留下一些排名的间隙。
    • 示例:RANK() OVER (ORDER BY column_name)
  3. DENSE_RANK()

    • 与 RANK() 类似,但不会留下排名间隙。
    • 示例:DENSE_RANK() OVER (ORDER BY column_name)
  4. NTILE(n)

    • 将窗口中的行分成指定数量的近似相等的组,并为每一行返回其组号。
    • 示例:NTILE(4) OVER (ORDER BY column_name)
  5. LAG(column, n, default)

    • 返回当前行之前的第 n 行的指定列的值。如果不存在这样的行,则返回默认值。
    • 示例:LAG(column_name, 1, 0) OVER (ORDER BY another_column)
  6. LEAD(column, n, default)

    • 返回当前行之后的第 n 行的指定列的值。如果不存在这样的行,则返回默认值。
    • 示例:LEAD(column_name, 1, 0) OVER (ORDER BY another_column)
  7. FIRST_VALUE(column)

    • 返回窗口中的第一行的指定列的值。
    • 示例:FIRST_VALUE(column_name) OVER (ORDER BY another_column)
  8. LAST_VALUE(column)

    • 返回窗口中的最后一行的指定列的值。
    • 示例:LAST_VALUE(column_name) OVER (ORDER BY another_column ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING)

注意:在使用 LAST_VALUE() 时,通常需要指定窗口范围,因为默认窗口可能不会包括所有行。

  1. SUM(), AVG(), MIN(), MAX()

    • 这些聚合函数也可以与窗口一起使用,以在窗口上执行计算,而不是在整个结果集上执行。
    • 示例:SUM(column_name) OVER (ORDER BY another_column ROWS BETWEEN 1 PRECEDING AND CURRENT ROW)

这只是 Hive 中窗口函数的一个简短列表。当与其他 SQL 功能(如分区、排序和子查询)结合使用时,窗口函数可以非常强大。

相关推荐
永霖光电_UVLED38 分钟前
1.6T 光模块的能效革命
大数据·人工智能·汽车·娱乐
talen_hx2961 小时前
《零基础入门Spark》学习笔记 Day 17
大数据·笔记·学习·spark
hf2000121 小时前
深入分析:Iceberg v3「删除向量(Deletion Vectors, DV)」如何缓解 CDC 场景写放大
大数据·spark·数据湖·湖仓一体·lakehouse
Elastic 中国社区官方博客2 小时前
使用 Remote Write 将 Prometheus 指标发送到 Elasticsearch
大数据·运维·elasticsearch·搜索引擎·全文检索·prometheus
小t说说2 小时前
2026年PPT生成工具评测及使用体验
大数据·前端·人工智能
IT观测2 小时前
数字化转型浪潮下的西安样本:从“摩高互动”看企业级技术服务的破局之道
大数据·人工智能
想你依然心痛3 小时前
大数据时代时序数据库选型指南:Apache IoTDB 的实战进阶与避坑法则
大数据·apache·时序数据库
35岁程序员的自救之路3 小时前
2026年社区系统选型指南:拒绝“缝合怪”,拥抱“AI原生”一体化方案
大数据·人工智能·ai-native
千里念行客2403 小时前
康华生物拐点已至:狂苗龙头加速转型 开启预防+治疗双轮增长新征程
大数据·科技·安全·健康医疗
哲霖软件3 小时前
机械质量管控总踩坑?用对 ERP从根源解决问题
大数据·智能制造·机械erp·哲霖软件·非标自动化