HBase 表如何按照某表字段排序后顺序存储的方法？

元元的李树2023-10-13 22:01

首先需要明白HBase表的排序规则：

（1）rowkey排序（字典排序）------升序

（2）Column排序（字典排序）------升序

（3）时间戳排序------降序

rowkey 字典序排序可点击下方链接了解。

$HBase$ - 理解 HBase Rowkey 字典排序https://www.jianshu.com/p/d4609b5bb9f3

如果想按照某列字段来排序，则需要再设计该表的rowkey上做文章，既满足字典排序，又能按照想要的字段排序来存储数据。

下面给出我的一个设计思路，仅供参考

业务需求：按照发布日期 listdate 降序排列数据

伪代码：

sql 复制代码

---- 在设计rowkey时做文章

---对基础表数据进行排序（row_number()函数）
--第一步
select
a.*,
ROW_NUMBER() over( order by listdate asc) as rn
from
XXX.t_XXX a

--第二步
- 综合考虑字典排序的规则，及预估表数据量，设定一个较大的数值(比如99999999)作为rowkey设计子字段

insert into XXX.XXXXX
select
concat(99999999 - a.rn, '_', a.XXXX_code) as rowkey,
a.*
from 
(
select
a.*,
ROW_NUMBER() over( order by listdate asc) as rn
from
XXX.t_XXX a
) a

最后的实现效果是，存储在HBase的数据，是按照listdate 降序顺次存储，方便后续开发api接口，返回数据。

效果图如下图所示