Hive窗口函数大全

Hive窗口函数

一、偏移量函数

lag

语法:lag(col,n,default_val)

返回值:字段类型

说明:往前第n行数据。

lag(column字段,第n行,默认值)

lag函数能够取出往前n行的数据值,如果数据为空值,则取默认值

lead

语法:lead(col,n, default_val)

返回值:字段类型

说明:往后第n行数据。

lead(column字段,第n行,默认值)

lead函数能够取出往后n行的数据,如果数据为空值,则取默认值

Tip:lead的英文翻译为领先的,这里的领先指的是当前数据行,因此想要取往后的数据需要使用lead
Tip:lag的英文翻译为落后的,这里的落后指的是当前数据行,因此想要取往前的数据需要使用lag

二、窗口分析函数

first_value

语法:first_value (col,true/false)

返回值:字段类型

说明:当前窗口下的第一个值,第二个参数为true,跳过空值。

first_value能够取出当前窗口下的第一个值,第二参数能够选择跳过空值。

last_value

语法:last_value (col,true/false)

返回值:字段类型

说明:当前窗口下的最后一个值,第二个参数为true,跳过空值。

last_value能够取出当前窗口下的第一个值,第二参数能够选择跳过空值。

Tip:窗口分析函数通常需要对分区数据进行order by排序,经过排序后的再使用窗口分析函数

三、排序函数

rank

语法:rank() over(......)

返回值:int

说明:排名相同时会重复,总数不会减少(12225......)。

rank为跳跃排序函数

dense_rank

语法:dense_rank() over(......)

返回值:int

说明:排名相同时会重复,总数会减少(12223......)。

dense_rank为不跳跃排序函数

row_number

语法:row_number() over(......)

返回值:int

说明:数据值相同时不会重复,总数不会减少(1234567......)。

row_number为顺序唯一排序函数

Tip:排序函数为面试常考题目,务必掌握捏。

相关推荐
数据要素X8 小时前
【大数据实战】如何从0到1构建用户画像系统(案例+数据仓库+Airflow调度)
大数据·数据仓库·数据治理·数据中台
weixin_5259363310 小时前
2020年美国新冠肺炎疫情数据分析与可视化
hadoop·python·数据挖掘·数据分析·spark·数据可视化
毕设源码-朱学姐16 小时前
【开题答辩全过程】以 python基于Hadoop的服装穿搭系统的设计与实现为例,包含答辩的问题和答案
开发语言·hadoop·python
IT学长编程16 小时前
计算机毕业设计 基于Hadoop的信贷风险评估的数据可视化分析与预测系统 大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试】
大数据·hadoop·毕业设计·课程设计·毕业论文·信贷风险评估的可视化分析与预测·hadoop大数据
西岭千秋雪_1 天前
RAG核心特性:ETL
数据仓库·人工智能·spring boot·ai编程·etl
计算机毕设残哥2 天前
基于Hadoop+Spark的商店购物趋势分析与可视化系统技术实现
大数据·hadoop·python·scrapy·spark·django·dash
IT研究室2 天前
大数据毕业设计选题推荐-基于大数据的全球能源消耗量数据分析与可视化系统-大数据-Spark-Hadoop-Bigdata
大数据·hadoop·spark·毕业设计·源码·数据可视化·bigdata
孟意昶2 天前
Spark专题-第三部分:性能监控与实战优化(1)-认识spark ui
大数据·数据仓库·sql·ui·spark·etl
大叔_爱编程2 天前
基于Hadoop的美妆产品网络评价的数据采集与分析-django+spider
大数据·hadoop·django·毕业设计·源码·课程设计·美妆产品