hive之LEAD 函数详解

1. 函数概述

LEAD 是 Hive 中的窗口函数,用于获取当前行之后指定偏移量处的行的值。常用于分析时间序列数据、计算相邻记录的差异或预测趋势。

2. 语法

复制代码
LEAD(column, offset, default) OVER (
    [PARTITION BY partition_column] 
    [ORDER BY order_column [ASC|DESC]]
)
  • column: 要获取后续值的列。

  • offset (可选): 向后查找的行数,默认为 1。

  • default (可选): 无后续行时的默认值,默认为 NULL。

  • PARTITION BY: 将数据划分为多个窗口(类似分组)。

  • ORDER BY: 定义窗口内的排序方式。

3.代码示例

sql 复制代码
CREATE TABLE sales_lead (
    sale_date STRING,
    salesperson STRING,
    amount INT
);

INSERT INTO sales_lead VALUES
('2023-01-01', 'Alice', 100),
('2023-01-02', 'Alice', 150),
('2023-01-03', 'Alice', 200),
('2023-01-01', 'Bob', 80),
('2023-01-02', 'Bob', 120);
sql 复制代码
---示例 1:获取下次销售额
SELECT 
    salesperson,
    sale_date,
    amount AS current_amount,
    LEAD(amount, 1, 0) OVER (
        PARTITION BY salesperson 
        ORDER BY sale_date
    ) AS next_amount
FROM sales_lead;
sql 复制代码
--示例 2:计算与下次销售的时间间隔
SELECT 
    salesperson,
    sale_date,
    LEAD(sale_date, 1) OVER (
        PARTITION BY salesperson 
        ORDER BY sale_date
    ) AS next_sale_date,
    DATEDIFF(
        LEAD(sale_date, 1) OVER (
            PARTITION BY salesperson 
            ORDER BY sale_date
        ), 
        sale_date
    ) AS days_diff
FROM sales_lead;
相关推荐
5***790010 小时前
JavaScript生成器函数
hive·tidb·consul
顧棟1 天前
HDFS元数据与auditlog结合Hive元数据统计分析
hive·hadoop·hdfs
yumgpkpm1 天前
腾讯云TBDS与CDH迁移常见问题有哪些?建议由CDH迁移到CMP 7.13 平台(类Cloudera CDP,如华为鲲鹏 ARM 版)
hive·hadoop·zookeeper·flink·spark·kafka·hbase
yumgpkpm2 天前
数据可视化AI、BI工具,开源适配 Cloudera CMP 7.3(或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)值得推荐?
人工智能·hive·hadoop·信息可视化·kafka·开源·hbase
二进制_博客2 天前
使用datax将mysql数据抽取到hive分区表无数据
数据库·hive·mysql
干就完事了2 天前
Hive视图
数据仓库·hive·hadoop
A尘埃2 天前
Hive基于Hadoop的数据仓库工具
数据仓库·hive·hadoop
百***35943 天前
从0到1部署Tomcat和添加servlet(IDEA2024最新版详细教程)
hive·servlet·tomcat
howard20053 天前
5.2 Hive插入数据实战
hive·插入数据
杂家3 天前
Hive on Spark && Spark on Hive配置
大数据·数据仓库·hive·hadoop·spark