Hive之窗口函数lag()/lead()

一、函数介绍

lag()与lead函数是跟偏移量相关的两个分析函数

通过这两个函数可以在一次查询中取出同一字段的前N行的数据(lag)和后N行的数据(lead)作为独立的列,从而更方便地进行进行数据过滤,该操作可代替表的自联接,且效率更高

lag()/lead()

lag(col,n,DEFAULT)用于统计窗口内往上第n行值

第一个参数为列名

第二个参数为往上第n行(可选,默认为1)

第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)

lead()函数与lag()函数相反,用于统计窗口内往下第n行值

over()

表示lag()与lead()操作的数据都在over()的范围内,里面可以使用以下子句

partition by 语句(用于分组)

order by 语句()用于排序)

如:over(partition by a order by b) 表示以a字段进行分组,再以b字段进行排序,对数据进行查询

二、应用场景

1、查找前一行或前N行的数据

2、比较相邻行的数据

3、查询n天内值是否连续增长的

三、实践案例

有一张表kd_stock_history_info,里面有code(编码),date(日期),amount(销售额)三个字段,表数据如下:

通过hive如何获取到连续n天是增长状态的编码。例如查询2023-01-10这天的数据,也就是从2023-01-10这天往前数三天,看这三天的数据中amount是否连续增长,表中1001就不是,1002则符合。

sql 复制代码
SELECT
  code,
  `date`,
  amount,
  LAG(amount) OVER (PARTITION by code ORDER BY `date`) AS prev_sales,
  amount - LAG(amount) OVER (PARTITION by code ORDER BY `date`) AS sales_diff
FROM
  kd_stock_history_info
where 
`date` BETWEEN DATE_SUB(TO_DATE('2023-01-10'), 2) AND TO_DATE('2023-01-10');

为了更美观一些,调整lag()函数默认值

sql 复制代码
SELECT
  code,
  `date`,
  amount,
  LAG(amount,1,amount) OVER (PARTITION by code ORDER BY `date`) AS prev_sales,
  amount - LAG(amount,1,amount) OVER (PARTITION by code ORDER BY `date`) AS sales_diff
FROM
  kd_stock_history_info
where 
`date` BETWEEN DATE_SUB(TO_DATE('2023-01-10'), 2) AND TO_DATE('2023-01-10');

最终代码:

sql 复制代码
SELECT code,min(sales_diff) min_sales_diff from (
SELECT
code,
  `date`,
  amount,
  LAG(amount,1,amount) OVER (PARTITION by code ORDER BY `date`) AS prev_sales,
  amount - LAG(amount,1,amount) OVER (PARTITION by code ORDER BY `date`) AS sales_diff
FROM
  kd_stock_history_info
where 
`date` BETWEEN DATE_SUB(TO_DATE('2023-01-10'), 2) AND TO_DATE('2023-01-10') 
) a 
group by code 
having min_sales_diff >= 0;

更多资料:

Hive Lag函数用法介绍_笔记大全_设计学院 (python100.com)

Hive窗口函数04-LAG、LEAD、FIRST_VALUE、LAST_VALUE-腾讯云开发者社区-腾讯云 (tencent.com)

相关推荐
星轨初途2 小时前
数据结构二叉树之链式结构(3)(下)
c语言·网络·数据结构·经验分享·笔记·后端
智者知已应修善业4 小时前
【51单片机LED贪吃蛇】2023-3-27
c语言·c++·经验分享·笔记·嵌入式硬件·51单片机
Q26433650234 小时前
【有源码】spark与hadoop-情感挖掘+画像建模的携程酒店评价数据分析可视化系统-基于机器学习的携程酒店评价情感分析与竞争态势可视化
大数据·hadoop·python·机器学习·数据分析·spark·毕业设计
charlie1145141917 小时前
从 0 开始:在 WSL + VSCode 上利用 Maven 构建 Java Spring Boot 工程
java·笔记·vscode·后端·学习·maven·springboot
思成不止于此13 小时前
【C++ 数据结构】二叉搜索树:原理、实现与核心操作全解析
开发语言·数据结构·c++·笔记·学习·搜索二叉树·c++40周年
碧海潮生_CC14 小时前
【CUDA笔记】03 CUDA GPU 架构与一般的程序优化思路(下)
笔记·架构·cuda
钟屿15 小时前
Back to Basics: Let Denoising Generative Models Denoise 论文阅读学习
论文阅读·人工智能·笔记·学习·计算机视觉
d111111111d15 小时前
SPI通信协议--在STM32中介绍(学习笔记)
笔记·stm32·单片机·嵌入式硬件·学习
愚昧之山绝望之谷开悟之坡15 小时前
业务接待-公务接待-商务接待
笔记
大数据追光猿17 小时前
LangChain / LangGraph / AutoGPT / CrewAI / AutoGen 五大框架对比
经验分享·笔记·python·langchain·agent