SQL---Zeppeline前驱记录与后驱记录查询

内容导航

类别 内容导航
机器学习 机器学习算法应用场景与评价指标
机器学习算法---分类
机器学习算法---回归
机器学习算法---聚类
机器学习算法---异常检测
机器学习算法---时间序列
数据可视化 数据可视化---折线图
数据可视化---箱线图
数据可视化---柱状图
数据可视化---饼图、环形图、雷达图
统计学检验 箱线图筛选异常值
3 Sigma原则筛选离群值
Python统计学检验
大数据 PySpark大数据处理详细教程
使用教程 CentOS服务器搭建Miniconda环境
Linux服务器配置免密SSH
大数据集群缓存清理
面试题整理 面试题---机器学习算法
面试题---推荐系统

前驱记录

为了在 SQL 查询中按特定列对数据进行分区,可以在窗口函数中使用 PARTITION BY 子句。这通常用于在执行窗口函数(如 LAG)时在某些列的值上创建数据的分区。例如,如果您想按 _distinct_id 分区数据,然后在每个分区内找到符合特定条件的记录的前一条记录,可以这样做:

sql 复制代码
WITH ExtendedTable AS (
    SELECT
        _distinct_id,
        _part_event,
        plat_id,
        _event_time,
        exception_type,
        _kudu_pt,
        LAG(_part_event) OVER (PARTITION BY _distinct_id ORDER BY _event_time) AS prev_part_event
    FROM 
        YourTable
    WHERE 
        _kudu_pt >= 20231115 AND _kudu_pt < 20231201
)

SELECT 
    COUNT(*) AS TotalCount
FROM 
    ExtendedTable
WHERE
    _part_event = 'app_exception' AND exception_type = 7
    AND 
    (
        prev_part_event LIKE 'dbt_ad%' OR 
        prev_part_event LIKE 'video%' OR 
        prev_part_event LIKE 'ad%' OR 
        prev_part_event LIKE 'Ad%' OR 
        prev_part_event LIKE 'insert%' OR 
        prev_part_event LIKE 'inters%'
    )

在这个例子中:

LAG(_part_event) OVER (PARTITION BY _distinct_id ORDER BY _event_time):此窗口函数首先按 _distinct_id 列对数据进行分区,然后在每个分区内按 _event_time 排序,从而为每条记录计算 prev_part_event。

这意味着 LAG() 函数是在每个 _distinct_id 分区内独立计算的。

请确保将 _distinct_id 替换为您实际想要用作分区依据的列名。这种方法允许您在每个分区(例如,每个用户或每个设备)内单独跟踪事件序列。

后驱记录

要查找满足特定条件(例如 _part_event = 'app_exception' AND exception_type = 7)的记录的后一条记录,您可以使用窗口函数 LEAD()。与 LAG() 类似,LEAD() 用于访问当前行之后的行中的数据。在您的场景中,我们将使用 LEAD() 来获取每条记录后面的 _part_event 值,然后筛选出满足您指定条件的记录。

以下是相应的 SQL 查询:

sql 复制代码
WITH ExtendedTable AS (
    SELECT
        _distinct_id,
        _part_event,
        plat_id,
        _event_time,
        exception_type,
        _kudu_pt,
        LEAD(_part_event) OVER (PARTITION BY _distinct_id ORDER BY _event_time) AS next_part_event
    FROM 
        YourTable
    WHERE 
        _kudu_pt >= 20231115 AND _kudu_pt < 20231201
)

SELECT 
    COUNT(*) AS TotalCount
FROM 
    ExtendedTable
WHERE
    _part_event = 'app_exception' AND exception_type = 7
    AND 
    (
        next_part_event LIKE 'dbt_ad%' OR 
        next_part_event LIKE 'video%' OR 
        next_part_event LIKE 'ad%' OR 
        next_part_event LIKE 'Ad%' OR 
        next_part_event LIKE 'insert%' OR 
        next_part_event LIKE 'inters%'
    )

在此查询中:

LEAD(_part_event) OVER (PARTITION BY _distinct_id ORDER BY _event_time) 用于在 _distinct_id 分区内按 _event_time 排序后,获取每条记录后面的 _part_event 值。

最后,查询从 ExtendedTable 中选择那些满足 _part_event = 'app_exception' AND exception_type = 7 条件的记录,并且它们的下一条记录的 _part_event 符合您指定的模式。

这个查询将返回在指定时间段内,满足 _part_event = 'app_exception' AND exception_type = 7 条件的记录的数量,且它们的后一条记录符合特定的 _part_event 模式。

友情提示 :如果你觉得这个博客对你有帮助,请点赞、评论和分享吧!如果你有任何问题或建议,也欢迎在评论区留言哦!!!

相关推荐
瀚高PG实验室1 天前
pgsql-ogr-fdw
数据库·postgresql·瀚高数据库·highgo
IvorySQL1 天前
PostgreSQL 技术日报 (6月5日)|PG19 Beta1 上线,PGConf.PL 2026开启征稿
数据库·postgresql·区块链
abcy0712131 天前
pycharm python sqlalchemy mysql增删改查实例csdn
数据库·oracle
无风听海1 天前
IndexedDB 深度指南 浏览器中的事务型对象数据库
前端·数据库
咋吃都不胖lyh1 天前
langgraph基础示例
数据库
胖胖胖胖胖虎1 天前
SQL json_table 行转列方法
sql
网管NO.11 天前
子查询进阶|EXISTS/IN/ANY/ALL,优化查询效率
数据库·sql
云服务器租用费用1 天前
2026年腾讯云OpenClaw(Clawdbot)+Skills云上部署及Windows本地集成轻松入门
运维·服务器·数据库·windows·云计算·腾讯云
AllData公司负责人1 天前
大模型赋能AllData数据中台,系列升级|通过联合智谱大模型与BiSheng开源项目,建设企业大模型应用开发平台,支持知识库向量检索!
大数据·数据结构·数据库·算法·大模型·向量数据库·智谱ai
Raink老师1 天前
【AI面试临阵磨枪-94】Skill 安全:注入、越权、数据泄露、恶意代码、沙箱?
数据库·安全·面试