从 SQL 到 SPL:组内查找最近的匹配记录

MSSQL 数据库的表 mytable,每个 ID 有一个 ConfirmationStarted 和多个 Closed 状态。

|-------------------------|------|---------------------|
| CreatedAt | ID | NewStatus |
| 2022-05-25 23:17:44.000 | 147 | Active |
| 2022-05-28 05:59:02.000 | 147 | Closed |
| 2022-05-30 20:48:53.000 | 147 | Active |
| 2022-06-18 05:59:01.000 | 147 | Closed |
| 2022-06-21 20:09:48.000 | 147 | Active |
| 2022-06-25 05:59:01.000 | 147 | Closed |
| 2022-07-13 00:02:47.000 | 147 | ConfirmationStarted |
| 2022-07-15 15:33:30.000 | 147 | ConfirmationDone |
| 2022-08-25 05:59:01.000 | 147 | Closed |
| 2023-03-08 13:34:57.000 | 1645 | Draft |
| 2023-03-22 19:58:51.000 | 1645 | Active |
| 2023-04-29 05:59:02.000 | 1645 | Closed |
| 2023-05-08 14:50:29.000 | 1645 | Awarded |
| 2023-05-08 14:53:34.000 | 1645 | ConfirmationStarted |
| 2023-05-08 17:53:55.000 | 1645 | ConfirmationDone |

现在要在每个 ID 里,找到 ConfirmationStarted 之前的所有的 Closed 中,离 ConfirmationStarted 最近的那条记录,取出记录的 ID 和时间字段。

|------|-------------------------|
| ID | xdate |
| 147 | 2022-06-25 05:59:01.000 |
| 1645 | 2023-04-29 05:59:02.000 |

SQL 解法:

复制代码
With cte AS (
    SELECT ID, CreatedAt, NewStatus,
        ROW_NUMBER() OVER (PARTITION BY ID ORDER BY CreatedAt DESC) AS rn
    FROM mytable
    WHERE NewStatus = 'Closed'
    AND CreatedAt < (
        SELECT CreatedAt FROM mytable AS sub
        WHERE sub.ID = mytable.ID AND sub.NewStatus = 'ConfirmationStarted'
    )
)
SELECT ID, CreatedAt as xdate
FROM cte
WHERE rn = 1
ORDER BY ID;

SQL没有天然序号,需要先用窗口函数生成序号。SQL分组后必须立刻汇总,不能对组内记录进行过滤,只能绕道用多层子查询反复过滤。整体代码有点繁琐又难懂。

SPL有天然序号,还提供有丰富的与位置相关的计算。SPL分组后可以保持分组子集,便于处理组内数据。

|---|------------------------------------------------------------------------------------|
| |  A |
| 1 | "select ID,CreatedAt,NewStatus from mytable order by CreatedAt")=mssql.query( |
| 2 | =A1.group(ID) |
| 3 | =A2.(~.select@c(NewStatus!="ConfirmationStarted").select@z1(NewStatus=="Closed")) |
| 4 | =A3.new(ID,CreatedAt:xdate) |

A1:从数据库加载数据,按时间排序。

A2:按 ID 分组,但不汇总。

A3:过滤每组数据,先找到 ConfirmationStarted 之前的记录,再从中过滤出 Closed,取倒数第 1 条。函数 select 用于条件过滤,过滤时支持与位置相关的计算,@c 表示从第一个使条件为真的记录开始取,直到遇到使条件为假的记录时停止,@1 表示取结果的第 1 条,@z 表示从后往前过滤。

A2-A4 可以合成一句:=A1.group(ID;~.select@c(NewStatus!="ConfirmationStarted").select@z1(NewStatus=="Closed").CreatedAt:xdate)

SPL已开源免费,欢迎前往乾学院了解更多!

免费下载

相关推荐
崖山数据库系统YashanDB13 分钟前
YashanDB json语法
数据库
陈三一16 分钟前
关于多数据源下Spring声明式事务管理失效问题的分析与解决
数据库·spring
我有医保我先冲1 小时前
SQL复杂查询与性能优化全攻略
数据库·sql·性能优化
烧瓶里的西瓜皮1 小时前
Go语言从零构建SQL数据库引擎(2)
数据库·sql·golang
SelectDB1 小时前
拉卡拉 x Apache Doris:统一金融场景 OLAP 引擎,查询提速 15 倍,资源直降 52%
大数据·数据库·数据分析
爱的叹息1 小时前
华为高斯(GaussDB) 集中式数据库 的开发技术手册,涵盖核心功能、开发流程、优化技巧及常见问题解决方案
数据库·gaussdb
背太阳的牧羊人1 小时前
使用 PyMuPDF(fitz)库打开 PDF 文件,并且是从内存中的字节流(BytesIO)读取 PDF 内容
数据库·pdf·文件处理·pymupdf·fitz
冷月半明2 小时前
《Pandas 性能优化:向量化操作 vs. Swifter 加速,谁才是大数据处理的救星?》
python·数据分析·pandas
alicia23222 小时前
一文揭秘AI如何像庖丁解牛一样拆解复杂查询
数据分析
Alt.92 小时前
MyBatis基础五(动态SQL,缓存)
java·sql·mybatis