HIVE 窗口函数处理重复数据

窗口函数row_number(),结合OVER子句中的PARTITION BYORDER BY,为数据分组内的每一行生成一个唯一的序号。具体分析如下:

函数作用:

  • row_number():为每个分组内的行分配一个唯一的连续序号(从1开始)。

OVER子句详解:

  1. PARTITION BY t1.org_code, t1.customer_code

    • 将数据按 org_code(机构代码)和 customer_code(客户代码) 分组。

    • 窗口计算会独立发生在每个分组内

  2. ORDER BY t1.id DESC

    • 在每个分组内,按 id 字段降序排列 (即 id 值最大的排在最前面)。

    • 序号分配基于此排序:最大的 id 对应 rank=1,次大的 id 对应 rank=2,以此类推

结果列名:

  • 生成的序号列名为 rank(可在后续查询中通过此名称引用)。

典型使用场景示例:

复制代码
SELECT *
FROM (
    SELECT 
        t1.*,
        ROW_NUMBER() OVER (
            PARTITION BY t1.org_code, t1.customer_code
            ORDER BY t1.id DESC
        ) AS rank
    FROM your_table t1
) subquery
WHERE rank = 1; -- 获取每个分组内最新的一条记录(id最大)

注意事项:

  • 若需要完全去重 (如多行 id 相同时只取一条),优先用 ROW_NUMBER()

  • 若需保留相同 id 的所有记录 ,改用 RANK()DENSE_RANK()

  • 性能:在分区字段(org_code, customer_code)和排序字段(id)上建立索引可加速计算。

相关推荐
知行小栈12 分钟前
职业生涯的日常拷问
java·数据库·后端
代码的余温19 分钟前
Redis集群核心原理与实战解析
数据库·redis·缓存
我科绝伦(Huanhuan Zhou)43 分钟前
达梦数据库数据守护集群启动与关闭标准流程
数据库
用户6279947182621 小时前
南大通用GBase 8s Python 驱动最佳实践指南
数据库
山茶花开时。2 小时前
[Oracle] NVL()函数
数据库·oracle
水木石画室2 小时前
Redis的分布式序列号生成器原理
数据库·redis·分布式
❀͜͡傀儡师2 小时前
达梦数据库日常运维命令
运维·数据库
喵王叭2 小时前
【大模型实战】向量数据库实战 - Chroma & Milvus
数据库·人工智能·langchain
得物技术4 小时前
Valkey 单点性能比肩 Redis 集群了?Valkey8.0 新特性分析|得物技术
大数据·数据库·redis