Hive窗口函数大全

Hive窗口函数

一、偏移量函数

lag

语法:lag(col,n,default_val)

返回值:字段类型

说明:往前第n行数据。

lag(column字段,第n行,默认值)

lag函数能够取出往前n行的数据值,如果数据为空值,则取默认值

lead

语法:lead(col,n, default_val)

返回值:字段类型

说明:往后第n行数据。

lead(column字段,第n行,默认值)

lead函数能够取出往后n行的数据,如果数据为空值,则取默认值

Tip:lead的英文翻译为领先的,这里的领先指的是当前数据行,因此想要取往后的数据需要使用lead
Tip:lag的英文翻译为落后的,这里的落后指的是当前数据行,因此想要取往前的数据需要使用lag

二、窗口分析函数

first_value

语法:first_value (col,true/false)

返回值:字段类型

说明:当前窗口下的第一个值,第二个参数为true,跳过空值。

first_value能够取出当前窗口下的第一个值,第二参数能够选择跳过空值。

last_value

语法:last_value (col,true/false)

返回值:字段类型

说明:当前窗口下的最后一个值,第二个参数为true,跳过空值。

last_value能够取出当前窗口下的第一个值,第二参数能够选择跳过空值。

Tip:窗口分析函数通常需要对分区数据进行order by排序,经过排序后的再使用窗口分析函数

三、排序函数

rank

语法:rank() over(......)

返回值:int

说明:排名相同时会重复,总数不会减少(12225......)。

rank为跳跃排序函数

dense_rank

语法:dense_rank() over(......)

返回值:int

说明:排名相同时会重复,总数会减少(12223......)。

dense_rank为不跳跃排序函数

row_number

语法:row_number() over(......)

返回值:int

说明:数据值相同时不会重复,总数不会减少(1234567......)。

row_number为顺序唯一排序函数

Tip:排序函数为面试常考题目,务必掌握捏。

相关推荐
编织幻境的妖8 小时前
ETL、数据仓库与数据湖详解
数据仓库·etl
爱吃大芒果8 小时前
Flutter 本地存储方案:SharedPreferences、SQFlite 与 Hive
开发语言·javascript·hive·hadoop·flutter·华为·harmonyos
咨询qq 8762239659 小时前
三相逆变器MPC控制:从原理到仿真实践
数据仓库
shjita10 小时前
hadoop运行jar包的相关配置参考!
大数据·hadoop·分布式
yumgpkpm10 小时前
AI大模型手机的“简单替换陷阱”与Hadoop、Cloudera CDP 7大数据底座的关系探析
大数据·人工智能·hadoop·华为·spark·kafka·cloudera
yumgpkpm10 小时前
(简略)AI 大模型 手机的“简单替换陷阱”与Hadoop、Cloudera CDP 7大数据底座的关系探析
人工智能·hive·zookeeper·flink·spark·kafka·开源
yumgpkpm10 小时前
Cloudera CDP 7.3下载地址、方式,开源适配 CMP 7.3(或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)值得推荐
大数据·hive·hadoop·分布式·华为·开源·cloudera
笨蛋少年派1 天前
数据仓库系统建设:数据采集、预处理与集成
数据仓库
qq 8762239651 天前
基于Matlab/simulink的双电机建模驱动控制仿真模型:探索纯电与混动汽车世界
数据仓库
番茄撒旦在上1 天前
Hive数仓分层——国内大数据就业洞察
大数据·数据仓库·hive