时序基础模型(如TimeGPT-1和Moirai)在零售场景中的实证突破主要体现在预测精度全面超越经典方法 ,并通过双策略集成框架解决了其架构僵化等问题,从而实现了从概念验证到开箱即用的实用化跨越。
一、 实证性能:全面超越经典方法
一项2025年的系统对比研究在多个零售品类上评估了基础模型与经典方法的性能,结果如下表所示:
| 模型类别 | 代表模型 | 核心优势 | 在零售场景中的实证表现 |
|---|---|---|---|
| 时序基础模型 | TimeGPT-1, Moirai | 零样本/少样本能力,捕捉复杂模式 | 在摄像机、平板电脑、玩具等多个品类的预测中,绝对精度全面超越SARIMA、Holt-Winters、Prophet等经典方法,尤其在需求波动剧烈的环境下优势显著。 |
| 经典统计模型 | SARIMA, Holt-Winters | 模型简单,可解释性强 | 在具有稳定季节性的场景中仍具竞争力,但在动态、波动的零售环境中局限性明显。 |
| 经典预测框架 | Prophet | 支持外部回归变量 | 添加外部变量后,并未系统性提升预测性能。 |
关键结论:时序基础模型已证明其开箱即用的实用价值,不再是纯学术概念。
二、 突破关键:双策略集成框架
尽管基础模型表现优异,但其存在架构僵化 和对数据分布漂移鲁棒性不足 的局限性。为释放其全部潜力,研究者提出了双策略集成框架(Dual-Strategy Ensembling):
- 层级集成(Hierarchical Ensemble, HE):针对零售供应链的多层级结构(如全国、区域、门店、SKU),在不同语义层级上分别进行模型的训练与推理,以更好地捕捉局部模式和特异性。
- 架构集成(Architectural Ensemble, AE):融合多种不同架构的基础模型(如TimeGPT-1、Moirai等)的预测结果,通过模型多样性减少单一模型的偏差,提升整体预测的稳定性和鲁棒性。
该框架在M5竞赛数据集及多个外部销售数据集上的实验表明,它能一致性地超越强基线模型。其核心启示是:当单一基础模型效果不佳时,集成策略是解锁其潜力的关键。
三、 能力演进:轻量化与协变量支持
2026年的新进展进一步拓展了基础模型在零售场景的应用边界,新模型特性对业务更友好:
| 新模型 | 核心特性 | 对零售场景的价值 |
|---|---|---|
| CITRAS-FM | 轻量级,原生支持协变量的零样本预测 | 可直接融入价格、促销、天气等业务特征,进行更精准的因果/条件预测。 |
| ProbFM | 支持不确定性分解的概率预测 | 为库存决策提供分位数预测(如P50, P90),量化预测风险。 |
| AME-TS | 通过锚定专家混合实现结构引导的稀疏预测 | 可根据序列的可预测性、季节性等描述符,自动路由到不同的专家模型,擅长处理长尾稀疏商品。 |
这些演进使得基础模型不仅能做更准确的"点预测",还能进行考虑外部因素的条件预测 和量化不确定性的概率预测,更好地服务于库存优化、促销评估等实际业务决策。