ICLR 2026 | Chronos、TimesFM、Moirai等模型在6个数据集上的校准误差对比

时序之心2026-06-03 13:54

本文研究时间序列基础模型（TSFMs）的概率预测校准问题。TSFMs已在零样本/少样本预测中取得较好精度，但实际应用不只需要点预测，还需要可信的不确定性估计，例如医疗、异常检测和决策场景中，预测分布是否"说到做到"很关键。

现有评估常用CRPS、WQL、MSIS，但论文指出这些指标混合了校准性与锐度，可能把预测更准或区间更窄误判为"更校准"。作者因此系统比较5个TSFM与ARIMA、N-BEATS，核心动机是回答：TSFMs是否真正校准？预测头和长程自回归会如何影响校准？

另外，我整理了时序科研工具资料包：写作/阅读/编码/文献/实验/绘图，全流程直接照搬，感兴趣的dd，希望能帮到你！

原文姿.料，这儿!

实现要点 ：
- 比较模型：Chronos-Bolt、TimesFM、Moirai 2.0、TiRex、YingLong；基线为ARIMA、N-BEATS。
- 数据集：Reviews、Shopping(M5)、Glucose、Heart-Rate、Crime、Patents。
- 预测头实验：替换并训练Gaussian、Student's t、混合分布、Quantile heads。
- 长程预测：比较branching与trajectory自回归，并考察不同forecast horizon。

主实验：TSFMs在6个真实数据集上通常比ARIMA和N-BEATS有更低PCE，且点预测MASE也具竞争力。
深入分析 ：
- WQL可能与MASE高度相关，不能单独代表校准。
- Gaussian预测头明显更不足自信，PCE更高；Quantile、Student's t、混合分布差异较小。
- 长程自回归中，更大的horizon和trajectory方法校准更好；AR方法整体更易过度自信。
结论价值：论文认为TSFMs相比传统基线更校准，且短程预测中没有系统性过度或不足自信；该研究可指导TSFM在高风险场景中的不确定性使用。

这篇论文的重点不是证明TSFM预测更准，而是检查它们给出的概率是否可信。

结果显示，主流时间序列基础模型整体校准较好，明显优于ARIMA和N-BEATS；但预测头选择和长程自回归策略会影响校准，尤其Gaussian头和短horizon自回归需要谨慎使用。