Hsql每日一题 | day01

前言

就一直向前走吧,沿途的花终将绽放~

题目:找出连续活跃3天及以上的用户

sql 复制代码
create table t_useractive(
    uid   string,
    dt    string
);

insert into t_useractive
values('A','2023-10-01'),('A','2023-10-02'),('A','2023-10-03'),('A','2023-10-04'),
      ('B','2023-10-01'),('B','2023-10-03'),('B','2023-10-04'),('B','2023-10-05'),
      ('C','2023-10-01'),('C','2023-10-03'),('C','2023-10-05'),('C','2023-10-06'),
      ('D','2023-10-02'),('D','2023-10-03'),('D','2023-10-05'),('D','2023-10-06');

hsql:

sql 复制代码
select uid
from (
select  uid
from
    (select uid,dt,row_number() over (partition by uid order by dt)  rn,
             date_sub(dt, row_number() over (partition by uid order by dt)) c1
      from t_useractive
) t1 group by uid,c1
having count(*) >= 3
)
t2 group by uid;

hsql分析:

  1. 子查询 t1:

    • t_useractive表中选择uiddt
    • 使用row_number() over (partition by uid order by dt)为每个用户的活动记录分配一个行号(按照日期排序)。这个行号被命名为rn
    • 接下来,计算一个名为c1的字段,该字段是日期dt减去行号rn的结果。这样做的目的是为了标记连续的日期,因为对于连续的日期,date_sub(dt, rn)的结果将是相同的。
  2. 子查询 t1 的分组:

    • 使用group by uid, c1对子查询t1的结果进行分组。由于c1字段对于连续的日期是相同的,因此这将把连续的日期记录分组在一起。
  3. having count(*) >= 3:

    • 筛选出那些组中记录数大于或等于3的组,这意味着这些组代表了连续3天或更多的活动。
  4. 外部查询 t2:

    • 由于内部查询已经筛选出了连续3天或更多的活动组,外部查询只需简单地按uid进行分组,并选择uid字段。这一步是为了确保每个用户只被列出一次,即使他们在不同的时间段内有多个连续的3天或更多天的活动。

最终,这个查询将返回所有在t_useractive表中至少有连续3天活动的用户的uid

相关推荐
AlfredZhao12 小时前
vi 删除指定范围的行,不用再反复按 dd
linux·vi
用户97183563346618 小时前
银河麒麟 KY10 申威(SW64) 安装 nginx-1.16.1-2.p01.ky10.sw_64.rpm 详细步骤
linux
得物技术18 小时前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程
久美子19 小时前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程
大数据
猪脚踏浪19 小时前
linux 拷贝文件或目录到指定的位置
linux
大树881 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
摇滚侠1 天前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql
大志哥1231 天前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch
bush41 天前
嵌入式linux学习记录十四、术语
linux·嵌入式
载数而行5201 天前
Linux 11 动态监控指令top
linux