大数据面试SQL(一):合并日期重叠的活动

文章目录

合并日期重叠的活动

一、题目

二、分析

三、SQL实战

四、样例数据参考


合并日期重叠的活动

一、题目

已知有表记录了每个品牌的活动开始日期和结束日期,每个品牌可以有多个活动。请编写一个SQL查询合并在同一个品牌举行的所有重叠的活动,如果两个活动至少有一天相同,那他们就是重叠的。

样例数据:

目标结果:

解释:

有两个品牌,分别为小米和华为。

小米:

  • 两个活动["2024-01-13","2023-01-20"]和["2024-01-14","2024-01-17"]重叠,我们将它们合并到一个活动中["2024-01-13","2024-01-20"]。

华为:

  • "2024-11-09","2024-12-07"\]不与任何其他活动重叠,所以我们保持原样。

我们首先按照brand分组,根据start_date、end_date 升序排列,按照start_date 进行了升序排列,所以当前行的start_date一定晚于前一行的start_date,对当前行的start_date 和截止到上一行的最大end_date进行比较,如果当前行的start_date 小于等于截止到前一行最大end_date 代表有交叉,可以合并,否则代表不可合并。判断出是否可以合并之后,具体操作合并就转化成类似连续问题。

维度 评分
题目难度 ⭐️⭐️⭐️⭐️⭐️
题目清晰度 ⭐️⭐️⭐️⭐️⭐️
业务常见度 ⭐️⭐️⭐️⭐️

三、SQL实战

1、使用max()函数开窗,获得截止到当前行之前的活动最后日期

这里我们使用max(),按照brand进行分组,然后根据start_date和end_date进行排序,利用聚合函数开窗,开窗函数内有排序则聚合到当前行的特性,进行处理。其中我们这边需要聚合到当前行的上一行

执行SQL

sql 复制代码
select
    brand,
    start_date,
    end_date,
    max(end_date) over (partition by brand order by start_date asc,end_date asc rows between unbounded preceding and 1 preceding) as max_end_date
from t1_brand_event;

2、根据当前行的start_day与max_end_date进行比较,得出是否可以合并标记

执行SQL

sql 复制代码
select brand,
       start_date,
       end_date,
       max_end_date,
       if(start_date <= max_end_date, 0, 1) as is_merge --0:合并,1:不合并
from (select brand,
             start_date,
             end_date,
             max(end_date)
                 over (partition by brand order by start_date asc,end_date asc rows between unbounded preceding and 1 preceding) as max_end_date
      from t1_brand_event) t

3、连续问题,使用sum()over()进行分组

执行SQL

sql 复制代码
select brand,
       start_date,
       end_date,
       max_end_date,
       is_merge,
       sum(is_merge) over (partition by brand order by start_date asc,end_date asc) as group_id
from (select brand,
             start_date,
             end_date,
             max_end_date,
             if(start_date <= max_end_date, 0, 1) as is_merge --0:合并,1:不合并
      from (select brand,
                   start_date,
                   end_date,
                   max(end_date)
                       over (partition by brand order by start_date asc,end_date asc rows between unbounded preceding and 1 preceding) as max_end_date
            from t1_brand_event) t) tt;

4、完成合并,得到最终结果

取每个组内的start_day 的最小值作为活动开始日期,end_day的最大值作为活动结束日期,得到最终结果。

注意分组条件为:brand+group_id

执行SQL

sql 复制代码
select brand,
       min(start_date) as start_date,
       max(end_date)   as end_date
from (select brand,
             start_date,
             end_date,
             max_end_date,
             is_merge,
             sum(is_merge) over (partition by brand order by start_date asc,end_date asc) as group_id
      from (select brand,
                   start_date,
                   end_date,
                   max_end_date,
                   if(start_date <= max_end_date, 0, 1) as is_merge --0:合并,1:不合并
            from (select brand,
                         start_date,
                         end_date,
                         max(end_date)
                             over (partition by brand order by start_date asc,end_date asc rows between unbounded preceding and 1 preceding) as max_end_date
                  from t1_brand_event) t) tt) ttt
group by brand, group_id; --注意这里的分组,有group_id

四、样例数据参考

sql 复制代码
--建表语句
CREATE TABLE IF NOT EXISTS t1_brand_event (
    brand STRING, --品牌
    start_date STRING, -- 营销活动开始日期
    end_date STRING -- 营销活动结束日期
);
--数据插入
insert into  t1_brand_event(brand, start_date, end_date) values
('小米','2024-01-13','2024-01-20'),
('小米','2024-01-14','2024-01-17'),
('小米','2024-01-14','2024-01-16'),
('小米','2024-01-18','2024-01-25'),
('小米','2024-01-20','2024-01-26'),
('华为','2024-11-09','2024-12-07'),
('华为','2024-12-09','2024-12-23'),
('华为','2024-12-13','2024-12-17'),
('华为','2024-12-20','2024-12-24'),
('华为','2024-12-25','2024-12-30'),
('OPPO','2023-12-01','2024-01-30'),
('OPPO','2023-12-31','2024-06-30');

  • 📢博客主页:https://lansonli.blog.csdn.net
  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
  • 📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨
相关推荐
野猪亨利66721 分钟前
Qt day1
开发语言·数据库·qt
yumgpkpm34 分钟前
CMP (类ClouderaCDP7.3(404次编译) )华为鲲鹏Aarch64(ARM)信创环境多个mysql数据库汇聚的操作指南
大数据·hive·hadoop·zookeeper·big data·cloudera
本就一无所有 何惧重新开始38 分钟前
Redis技术应用
java·数据库·spring boot·redis·后端·缓存
isaki13741 分钟前
qt day1
开发语言·数据库·qt
流星白龙1 小时前
【Qt】4.项目文件解析
开发语言·数据库·qt
小钻风33661 小时前
HTTPS是如何确保安全的
网络·数据库
CryptoPP1 小时前
获取越南股票市场列表(包含VN30成分股)实战指南
大数据·服务器·数据库·区块链
跨境小新1 小时前
TG弹出“只能给双向联系人发送消息”的飞机双向限制怎么办?
大数据
数智顾问2 小时前
破解 Shuffle 阻塞:Spark RDD 宽窄依赖在实时特征工程中的实战与未来
大数据·分布式·spark
阿巴~阿巴~3 小时前
Redis重大版本演进全解析:从2.6到7.0
服务器·数据库·redis·ubuntu·缓存·centos