ICLR 2026 | Chronos、TimesFM、Moirai等模型在6个数据集上的校准误差对比

本文研究时间序列基础模型(TSFMs)的概率预测校准问题。TSFMs已在零样本/少样本预测中取得较好精度,但实际应用不只需要点预测,还需要可信的不确定性估计,例如医疗、异常检测和决策场景中,预测分布是否"说到做到"很关键。

现有评估常用CRPS、WQL、MSIS,但论文指出这些指标混合了校准性与锐度,可能把预测更准或区间更窄误判为"更校准"。作者因此系统比较5个TSFM与ARIMA、N-BEATS,核心动机是回答:TSFMs是否真正校准?预测头和长程自回归会如何影响校准?

另外,我整理了时序科研工具资料包:写作/阅读/编码/文献/实验/绘图,全流程直接照搬,感兴趣的dd,希望能帮到你!

原文 姿.料,这儿!

二、核心方法

  • 实现要点
    • 比较模型:Chronos-Bolt、TimesFM、Moirai 2.0、TiRex、YingLong;基线为ARIMA、N-BEATS。

    • 数据集:Reviews、Shopping(M5)、Glucose、Heart-Rate、Crime、Patents。

    • 预测头实验:替换并训练Gaussian、Student's t、混合分布、Quantile heads。

    • 长程预测:比较branching与trajectory自回归,并考察不同forecast horizon。

三、实验验证与效果

  • 主实验:TSFMs在6个真实数据集上通常比ARIMA和N-BEATS有更低PCE,且点预测MASE也具竞争力。

  • 深入分析

    • WQL可能与MASE高度相关,不能单独代表校准。

    • Gaussian预测头明显更不足自信,PCE更高;Quantile、Student's t、混合分布差异较小。

    • 长程自回归中,更大的horizon和trajectory方法校准更好;AR方法整体更易过度自信。

  • 结论价值:论文认为TSFMs相比传统基线更校准,且短程预测中没有系统性过度或不足自信;该研究可指导TSFM在高风险场景中的不确定性使用。

四、小编总结

这篇论文的重点不是证明TSFM预测更准,而是检查它们给出的概率是否可信。

结果显示,主流时间序列基础模型整体校准较好,明显优于ARIMA和N-BEATS;但预测头选择和长程自回归策略会影响校准,尤其Gaussian头和短horizon自回归需要谨慎使用。

相关推荐
名不经传的养虾人1 小时前
从0到1:企业级AI项目迭代日记 Vol.38|能演示的系统,和能日常用的系统,差的是这五件事
大数据·人工智能·ai编程·企业ai·多agent协作
SLD_Allen1 小时前
TDD+Ralph:AI 编程实战
人工智能·tdd
字节跳动数据库1 小时前
火山引擎 Milvus 发布官方 CLI + Skill ,终端与对话双通道掌控向量数据库
数据库·人工智能
颜淡慕潇1 小时前
鸿蒙 PC的 vcpkg 交叉编译库在x86_64宿主环境下的AI自动化验证方案
人工智能·自动化·harmonyos
战族狼魂1 小时前
MetaPrompt编译器核心逻辑拆解
开发语言·人工智能·python
硅谷秋水1 小时前
Qwen-VLA:跨任务、环境与机器人形态的视觉-语言-动作统一建模
人工智能·深度学习·算法·计算机视觉·语言模型·机器人
向宇it1 小时前
【AI视频】生成AI短剧、漫剧
人工智能·ai·音视频·动画·ai视频·短剧
金融RPA机器人丨实在智能2 小时前
选择Agent平台如何避免“厂商锁定”?深度解析企业级AI智能体架构解耦与落地实践
人工智能·ai·架构