SQL如何处理时间序列缺失值_利用窗口函数进行前后值填充

应先用GENERATE_SERIES或递归CTE生成完整时间轴再LEFT JOIN补空,再用FIRST_VALUE()按非空值分组向前填充;LAG/LEAD仅在现有行内跳转,无法跨缺失时间点。用 LAG() 和 LEAD() 填充缺失的时间点时间序列中出现 NULL 不代表没数据,常是采集断点或聚合后空档。直接用 COALESCE() 硬填前值会出错------它不感知顺序,只认当前行。必须结合窗口函数按时间排序后取邻近非空值。LAG(col, 1) OVER (ORDER BY ts) 取上一行的 col,但若上一行也是 NULL,结果仍是 NULL要"一直往前找",得嵌套 COALESCE(LAG(...), LAG(..., 2), LAG(..., 3)),但深度难预估更稳的做法:先用 ROW_NUMBER() OVER (PARTITION BY grp ORDER BY ts) 构造连续分组(见下节),再用 FIRST_VALUE() 向前广播用 FIRST_VALUE() + 分组实现"向前填充到最近非空值"核心思路不是逐行查,而是把每个非空值当作锚点,向后覆盖所有直到下一个非空值之间的空行。这需要构造一个能区分"填充段"的分组标识 grp。先用 COUNT(col) OVER (ORDER BY ts ROWS UNBOUNDED PRECEDING) 生成递增组号:每遇到一个非空 col,计数加一,空值沿用前一个计数再对这个 grp 分组,用 FIRST_VALUE(col) OVER (PARTITION BY grp ORDER BY ts ROWS UNBOUNDED PRECEDING) 拿每组第一个非空值注意 ROWS UNBOUNDED PRECEDING 是必须的,否则默认 RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW 在等值时间戳下可能出错处理时间戳不连续时的"向后填充"陷阱如果原始数据本身存在时间断层(比如缺了 2024-05-01 的整条记录),LAG()/LEAD() 无法补全------它们只在现有行内跳转,不会凭空插入新时间点。 通义听悟 阿里云通义听悟是聚焦音视频内容的工作学习AI助手,依托大模型,帮助用户记录、整理和分析音视频内容,体验用大模型做音视频笔记、整理会议记录。

相关推荐
笃行35043 分钟前
金仓数据库数据安全双防线:静态存储加密与传输加密实战
数据库
笃行3501 小时前
金仓数据库物理备份实战:sys_rman 全流程演练与误覆盖抢救
数据库
笃行3501 小时前
金仓数据库逻辑备份实战:从全库导出到 Schema 替换的完整闭环
数据库
金銀銅鐵2 小时前
n^5 和 n 的个位数是否总相等?
python·数学
aqi005 小时前
15天学会AI应用开发(九)利用Chroma持久化向量数据
人工智能·python·大模型·ai编程·ai应用
金銀銅鐵5 小时前
借助 Pygame 探索最大公约数的规律
python·数学·游戏
ServBay1 天前
9 个 Python 第三方库推荐,不用 AI 都好像多出一个团队
后端·python
用户8356290780511 天前
如何使用 Python 添加和管理 Excel 批注(完整示例)
后端·python