Hive窗口函数整理

Hive 中的窗口函数允许你在结果集的一个特定"窗口"内对行进行计算。这些窗口可以是物理的(基于行在数据中的实际位置)或逻辑的(基于行的一些排序标准)。窗口函数在处理排名、计算累计和或计算移动平均值等问题时特别有用。

以下是一些 Hive 中的常见窗口函数:

  1. ROW_NUMBER()

    • 为窗口中的每一行分配一个唯一的整数编号。
    • 示例:ROW_NUMBER() OVER (ORDER BY column_name)
  2. RANK()

    • 为窗口中的每一行分配一个唯一的排名,对于并列的值会有相同的排名,并且会留下一些排名的间隙。
    • 示例:RANK() OVER (ORDER BY column_name)
  3. DENSE_RANK()

    • 与 RANK() 类似,但不会留下排名间隙。
    • 示例:DENSE_RANK() OVER (ORDER BY column_name)
  4. NTILE(n)

    • 将窗口中的行分成指定数量的近似相等的组,并为每一行返回其组号。
    • 示例:NTILE(4) OVER (ORDER BY column_name)
  5. LAG(column, n, default)

    • 返回当前行之前的第 n 行的指定列的值。如果不存在这样的行,则返回默认值。
    • 示例:LAG(column_name, 1, 0) OVER (ORDER BY another_column)
  6. LEAD(column, n, default)

    • 返回当前行之后的第 n 行的指定列的值。如果不存在这样的行,则返回默认值。
    • 示例:LEAD(column_name, 1, 0) OVER (ORDER BY another_column)
  7. FIRST_VALUE(column)

    • 返回窗口中的第一行的指定列的值。
    • 示例:FIRST_VALUE(column_name) OVER (ORDER BY another_column)
  8. LAST_VALUE(column)

    • 返回窗口中的最后一行的指定列的值。
    • 示例:LAST_VALUE(column_name) OVER (ORDER BY another_column ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING)

注意:在使用 LAST_VALUE() 时,通常需要指定窗口范围,因为默认窗口可能不会包括所有行。

  1. SUM(), AVG(), MIN(), MAX()

    • 这些聚合函数也可以与窗口一起使用,以在窗口上执行计算,而不是在整个结果集上执行。
    • 示例:SUM(column_name) OVER (ORDER BY another_column ROWS BETWEEN 1 PRECEDING AND CURRENT ROW)

这只是 Hive 中窗口函数的一个简短列表。当与其他 SQL 功能(如分区、排序和子查询)结合使用时,窗口函数可以非常强大。

相关推荐
武子康11 小时前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP1 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库1 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟1 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
B站计算机毕业设计超人1 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
计算机程序猿学长1 天前
大数据毕业设计-基于django的音乐网站数据分析管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
大数据·django·课程设计
B站计算机毕业设计超人1 天前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计
十月南城1 天前
数据湖技术对比——Iceberg、Hudi、Delta的表格格式与维护策略
大数据·数据库·数据仓库·hive·hadoop·spark
中烟创新1 天前
灯塔AI智能体获评“2025-2026中国数智科技年度十大创新力产品”
大数据·人工智能·科技
璞华Purvar1 天前
2026智造升级|从配方到生产,从协同到合规——璞华易研PLM赋能制造企业全链路升级
大数据·人工智能