ICLR 2026 | Chronos、TimesFM、Moirai等模型在6个数据集上的校准误差对比

本文研究时间序列基础模型(TSFMs)的概率预测校准问题。TSFMs已在零样本/少样本预测中取得较好精度,但实际应用不只需要点预测,还需要可信的不确定性估计,例如医疗、异常检测和决策场景中,预测分布是否"说到做到"很关键。

现有评估常用CRPS、WQL、MSIS,但论文指出这些指标混合了校准性与锐度,可能把预测更准或区间更窄误判为"更校准"。作者因此系统比较5个TSFM与ARIMA、N-BEATS,核心动机是回答:TSFMs是否真正校准?预测头和长程自回归会如何影响校准?

另外,我整理了时序科研工具资料包:写作/阅读/编码/文献/实验/绘图,全流程直接照搬,感兴趣的dd,希望能帮到你!

原文 姿.料,这儿!

二、核心方法

  • 实现要点
    • 比较模型:Chronos-Bolt、TimesFM、Moirai 2.0、TiRex、YingLong;基线为ARIMA、N-BEATS。

    • 数据集:Reviews、Shopping(M5)、Glucose、Heart-Rate、Crime、Patents。

    • 预测头实验:替换并训练Gaussian、Student's t、混合分布、Quantile heads。

    • 长程预测:比较branching与trajectory自回归,并考察不同forecast horizon。

三、实验验证与效果

  • 主实验:TSFMs在6个真实数据集上通常比ARIMA和N-BEATS有更低PCE,且点预测MASE也具竞争力。

  • 深入分析

    • WQL可能与MASE高度相关,不能单独代表校准。

    • Gaussian预测头明显更不足自信,PCE更高;Quantile、Student's t、混合分布差异较小。

    • 长程自回归中,更大的horizon和trajectory方法校准更好;AR方法整体更易过度自信。

  • 结论价值:论文认为TSFMs相比传统基线更校准,且短程预测中没有系统性过度或不足自信;该研究可指导TSFM在高风险场景中的不确定性使用。

四、小编总结

这篇论文的重点不是证明TSFM预测更准,而是检查它们给出的概率是否可信。

结果显示,主流时间序列基础模型整体校准较好,明显优于ARIMA和N-BEATS;但预测头选择和长程自回归策略会影响校准,尤其Gaussian头和短horizon自回归需要谨慎使用。

相关推荐
东坡肘子12 小时前
Swift 还让你 Excited 吗?-- 肘子的 Swift 周报 #141
人工智能·swiftui·swift
nujnewnehc12 小时前
不会 py, 用 ai 写了个游戏辅助的感受
人工智能·游戏
ZhengEnCi20 小时前
09c-斯坦福CS336作业二:系统与分布式训练
人工智能
阿里云大数据AI技术20 小时前
用 SQL 解锁多模态数据分析:Hologres 让图片、语音、视频变成结构化洞察
人工智能
阿里云大数据AI技术21 小时前
EMR Serverless StarRocks 湖仓多模态检索:One SQL on One Data,实现全文 + 标量 + 向量三路混合检索
人工智能
冬奇Lab1 天前
Skill 系列(02):Skill 安全风险——三类攻击面的实战测试
人工智能·安全·开源
冬奇Lab1 天前
每日一个开源项目(第138篇):OpenMontage - 把 AI 编程助手变成完整的视频制作团队
人工智能·开源·claude
米小虾1 天前
智谱港股盘中市值突破万亿港元!GLM-5.2 开源引爆国产 AI 价值重估
人工智能·chatglm (智谱)
阿里云大数据AI技术1 天前
义乌小商品城基于MaxFrame AI Function的亿级AI 数据产线提速之路
人工智能