HIVE 窗口函数处理重复数据

窗口函数row_number(),结合OVER子句中的PARTITION BYORDER BY,为数据分组内的每一行生成一个唯一的序号。具体分析如下:

函数作用:

  • row_number():为每个分组内的行分配一个唯一的连续序号(从1开始)。

OVER子句详解:

  1. PARTITION BY t1.org_code, t1.customer_code

    • 将数据按 org_code(机构代码)和 customer_code(客户代码) 分组。

    • 窗口计算会独立发生在每个分组内

  2. ORDER BY t1.id DESC

    • 在每个分组内,按 id 字段降序排列 (即 id 值最大的排在最前面)。

    • 序号分配基于此排序:最大的 id 对应 rank=1,次大的 id 对应 rank=2,以此类推

结果列名:

  • 生成的序号列名为 rank(可在后续查询中通过此名称引用)。

典型使用场景示例:

复制代码
SELECT *
FROM (
    SELECT 
        t1.*,
        ROW_NUMBER() OVER (
            PARTITION BY t1.org_code, t1.customer_code
            ORDER BY t1.id DESC
        ) AS rank
    FROM your_table t1
) subquery
WHERE rank = 1; -- 获取每个分组内最新的一条记录(id最大)

注意事项:

  • 若需要完全去重 (如多行 id 相同时只取一条),优先用 ROW_NUMBER()

  • 若需保留相同 id 的所有记录 ,改用 RANK()DENSE_RANK()

  • 性能:在分区字段(org_code, customer_code)和排序字段(id)上建立索引可加速计算。

相关推荐
汽车仪器仪表相关领域2 小时前
南华 NHAT-610 柴油车排放测试仪 产品详解
数据库·功能测试·汽车·压力测试·可用性测试
我滴老baby4 小时前
工业时序数据实战:基于 DolphinDB 流计算引擎的实现与调优
数据库
睡不醒男孩0308234 小时前
TiDB数据库调研
数据库·tidb
珠***格4 小时前
实操落地|防逆流装置的安装规范、调试标准与故障处置
网络·数据库·人工智能·分布式·能源·边缘计算
Omics Pro5 小时前
3种蛋白结构输入方式!已申报欧洲发明专利
数据库·人工智能·python·机器学习·plotly
itfallrain6 小时前
Spring 构造器循环依赖排查:@RequiredArgsConstructor + @Lazy 到底有没有生效
数据库·python·spring
Database_Cool_6 小时前
AnalyticDB MySQL vs StarRocks/ByteHouse:云数仓选型指南——全托管 vs 自建方案
数据库·数据仓库·mysql·阿里云
Omics Pro6 小时前
「自兹以往」动物肠道微生物组
数据库·人工智能·机器学习·语言模型·自然语言处理
zzz_23686 小时前
【Redis】分布式锁完整演进
数据库·redis·分布式
mN9B2uk177 小时前
数据库的约束简介
java·数据库·sql