Hive中生成自增序列的常用方法

在日常业务开发过程中,通常遇到需要hive数据表中生成一列唯一ID,当然连续递增的更好。

最近在结算业务中,需要在hive表中生成一列连续且唯一的账单ID,于是就了解生成唯一ID的方法

1. 利用row_number函数

语法:row_number() over(order by step)+start_num

step表示每次递增多少

start_num表示从哪个值开始递增,不写默认是0

如下:表示从10000开始,每次递增1

sql 复制代码
SELECT row_number() over(order by 1)+10000

因此输出是10001

如果有其他值,也可以拼接其它值,比如列date是20231010

sql 复制代码
SELECT CONCAT(date,row_number() over(order by 1)+10000) AS auto_increment_id

因此输出是2023101010001

2. 利用自定义函数序列

首先Hive环境要有hive-contrib相关jar包

定义函数row_sequence

复制代码
create temporary function row_sequence as 'org.apache.hadoop.hive.contrib.udf.UDFRowSequence';

使用函数row_sequence

sql 复制代码
SELECT row_sequence() AS auto_increment_id

row_sequence的自增规则是我们自己定义的,至于怎么定义,就看我们的逻辑是怎么实现

3、二者区别

第一种方法row_number

在一次SQL运行中是全局递增的,只不过再次执行SQL就会重复,如果不想重复我们可以更改start_num的值,把start_num调整到我们认为的不会重复的值开始

或者拼接上日期或者时间戳等前缀,这样每次执行就不会重复

第二种方法UDFRowSequence

由于是我们自己定义的函数,而SQL任务是以分布式的运行的,一个SQL并发可能会有多个job执行,每个job可以理解为1个节点或者进程,在每个进程上运营的序列都从起始值开始,所以不能保证序号全局连续唯一。因此我们可以借助第三方存储记录,比如Redis,来保证生产序列的全局连续递增

相关推荐
橘子编程12 小时前
Hive大数据实战指南:从入门到精通
大数据·hive·hadoop
橘子编程17 小时前
Apache Hadoop知识全解析
大数据·hive·hadoop·apache
dovens17 小时前
Spring Boot 从 2.7.x 升级到 3.3注意事项
数据库·hive·spring boot
QEasyCloud20222 天前
企业数据仓库建设的技术架构与实施方法论
数据仓库·架构
淡定一生23332 天前
数据仓库建模方法
大数据·数据库·数据仓库
RestCloud2 天前
如何用ETL实现多租户数据库的数据隔离与整合
数据库·数据仓库·etl·etlcloud·数据同步·数据集成平台·数据库传输
千桐科技3 天前
数据仓库 vs 数据中台:从“数据库的豪华升级版”到“企业的数据操作系统”
数据库·数据仓库·数据治理·数据中台·数据资产·数据服务·qdata
Joy T3 天前
【大数据】离线数仓核心组件:Hive 架构解析与进阶操作指南
大数据·数据仓库·hive·hadoop·架构
jasnet_u3 天前
在Hadoop3.3.6上搭建Hive3.1.2
hive·hadoop
麦聪聊数据3 天前
企业数据流通与敏捷API交付实战(一):ETL、CDC与API调用对比
数据库·数据仓库·低代码·restful·etl