记录hive/spark取最新且不为null的方法

wxl_winston2023-12-12 19:16

听标题可能听不懂我想表达的意思，我来描述一下我要做的事：

比如采集同学对某一网站进行数据采集，同一个用户每天会有很多条记录，所以我们要取一条这个用户最新的状态，比如用户改了N次昵称，我们只想得到最后一次修改的结果，但是用窗口函数row_number按时间排序的话，可能最后一条某些字段没采集到，但是之前是有采集到的，所以应该在按时间倒序排的基础上，遇到null值，再往前取，直到所有字段尽可能取到最新的、不为null的值，最后存到表里。

比如下面的例子：

我们应该得到1，b，10，2023-12-01 00:04:00

可以使用struct函数将时间字段和属性字段拼接起来，当属性字段是null时，赋值为0（这样可以使其排名靠后），然后取max，再取出来属性值，sql如下：

sql 复制代码

SELECT id,
       aa.name,
       bb.age
FROM
  (SELECT id,
          max(struct(if(name IS NULL,0,addtime),name)) aa,
          max(struct(if(age IS NULL,0,addtime),age)) bb
   FROM your_table
   GROUP BY id)t1