SQL如何处理时间序列缺失值_利用窗口函数进行前后值填充

应先用GENERATE_SERIES或递归CTE生成完整时间轴再LEFT JOIN补空,再用FIRST_VALUE()按非空值分组向前填充;LAG/LEAD仅在现有行内跳转,无法跨缺失时间点。用 LAG() 和 LEAD() 填充缺失的时间点时间序列中出现 NULL 不代表没数据,常是采集断点或聚合后空档。直接用 COALESCE() 硬填前值会出错------它不感知顺序,只认当前行。必须结合窗口函数按时间排序后取邻近非空值。LAG(col, 1) OVER (ORDER BY ts) 取上一行的 col,但若上一行也是 NULL,结果仍是 NULL要"一直往前找",得嵌套 COALESCE(LAG(...), LAG(..., 2), LAG(..., 3)),但深度难预估更稳的做法:先用 ROW_NUMBER() OVER (PARTITION BY grp ORDER BY ts) 构造连续分组(见下节),再用 FIRST_VALUE() 向前广播用 FIRST_VALUE() + 分组实现"向前填充到最近非空值"核心思路不是逐行查,而是把每个非空值当作锚点,向后覆盖所有直到下一个非空值之间的空行。这需要构造一个能区分"填充段"的分组标识 grp。先用 COUNT(col) OVER (ORDER BY ts ROWS UNBOUNDED PRECEDING) 生成递增组号:每遇到一个非空 col,计数加一,空值沿用前一个计数再对这个 grp 分组,用 FIRST_VALUE(col) OVER (PARTITION BY grp ORDER BY ts ROWS UNBOUNDED PRECEDING) 拿每组第一个非空值注意 ROWS UNBOUNDED PRECEDING 是必须的,否则默认 RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW 在等值时间戳下可能出错处理时间戳不连续时的"向后填充"陷阱如果原始数据本身存在时间断层(比如缺了 2024-05-01 的整条记录),LAG()/LEAD() 无法补全------它们只在现有行内跳转,不会凭空插入新时间点。 通义听悟 阿里云通义听悟是聚焦音视频内容的工作学习AI助手,依托大模型,帮助用户记录、整理和分析音视频内容,体验用大模型做音视频笔记、整理会议记录。

相关推荐
Warson_L19 小时前
Python `Annotated` 与 LangGraph Reducer 学习笔记
python
韩师傅20 小时前
海天线算法的前世今生
python·计算机视觉
韩师傅20 小时前
当你的甲方设备过烂,要如何快速出效果?
python·计算机视觉
Warson_L20 小时前
LangGraph的MessageState and HumanMessage
python
韩师傅20 小时前
当你的甲方吐槽天空不够蓝,你应该如何应对
python·计算机视觉
Warson_L21 小时前
python的类&继承
python
Warson_L21 小时前
类型标注/type annotation
python
ThreeS1 天前
手搓MiniVLA全实战教程-一步一步用pytorch解释原理与思路
人工智能·python
金銀銅鐵1 天前
[Python] 模 n 乘法的逆元计算器
python·数学·游戏