销量预测的下一个十年:从Transformer到多模态大模型

复制代码
从ARIMA到LightGBM,再到Transformer和时序大模型------销量预测的技术范式正在被重新定义。本文梳理2025-2026年最前沿的五个方向,并探讨这些技术如何从学术论文走向你的业务。

一、一个正在发生的范式转移

如果你过去五年在关注销量预测,你应该感受到一个明显的变化:

· 2018-2022:LightGBM、XGBoost是绝对主流,特征工程是核心竞争力。

· 2023-2024:Transformer开始渗透时间序列领域,但很多人还在观望。

· 2025-2026:时序大模型(Time Series Foundation Models)爆发,多模态融合成为新战场。

2025年,京东零售推出了自研的十亿级时序大模型TimeHF,首次将RLHF(基于人类反馈的强化学习)应用于销量预测,预测准确度提升10%以上,已为2万个SKU提供自动化补货预测。与此同时,学术界提出了融合文本、时间序列甚至卫星图像的多模态Transformer框架,在M5数据集上将MAPE降低了15.7%。

这些技术不再是论文里的概念------它们正在走进现实。

但问题来了:作为一个中小商家或独立开发者,这些前沿技术跟你有什么关系? 你的数据量不够大、算力不够强,大模型的门槛太高。本文不仅梳理技术趋势,更会告诉你哪些可以"拿来就用",以及我的API已经在哪些方向上做了实践。

二、方向一:Transformer的零售落地

Transformer在NLP和CV领域早已是标配,但在时间序列预测中,它直到最近才真正展现出优势。

2.1 为什么Transformer适合销量预测?

传统RNN/LSTM模型在处理长序列时存在梯度消失问题,而Transformer的自注意力机制可以直接建模任意两个时间步之间的关系。对于零售数据来说,这意味着模型能同时捕捉:

· 长期依赖:去年同期的销量模式

· 短期峰值:促销日的瞬间爆发

2.2 最新进展:Masked Transformer with Mixed Features (MTMF)

2026年发表的一项研究提出了一种掩码Transformer与混合特征(MTMF)模型,专门用于零售需求预测。它的核心创新有三点:

  1. 集成TCN(时间卷积网络) :在Transformer基础上叠加TCN,同时捕获长期趋势和短期峰值。
  2. 掩码训练:通过随机掩码部分历史数据,让模型学会处理噪声和异常值------这在零售数据中极为常见(促销波动、缺货零值)。
  3. 混合特征:同时输入数值型时间序列和类别型特征(如商品ID、门店ID)。

实验结果显示,MTMF在多个零售数据集上取得了MSE=12.6、MAE=1.8的最佳表现。

2.3 你可以怎么用?

如果数据量在万级以下:直接用Transformer替换LSTM可能不会有明显提升,因为Transformer需要更多数据才能发挥优势。

如果数据量在十万级以上:可以尝试将Transformer作为特征提取器,输出的嵌入向量再输入LightGBM做最终预测(即"Transformer + 树模型"的混合架构)。

三、方向二:时序大模型(Time Series Foundation Models)

这是2025年最热的方向。

3.1 什么是时序大模型?

类似于GPT在NLP领域的"预训练+微调"范式,时序大模型先在海量时间序列数据上预训练,然后可以零样本(zero-shot) 或少样本(few-shot) 地应用于新的预测任务。

这意味着:你不需要为自己的数据集训练模型,直接用预训练好的大模型就能预测------就像你用ChatGPT不需要自己训练一样。

3.2 京东TimeHF:十亿级参数的零售实践

京东的TimeHF是这一领域的标杆。它在三个方面做了创新:

· 数据集:整合了京东自营销量数据、公开数据集和合成数据,构建了15亿样本的训练集。

· 模型架构:PCTLM(Patch Convolutional Timeseries Large Model),采用掩码编码器架构+分组注意力机制。

· 训练方法:首次将RLHF引入时序预测,设计了TPO(Timeseries Policy Optimization)框架。

效果:在多个公开数据集上达到SOTA,已部署于京东供应链。

3.3 基础模型的局限性

但基础模型并非万能。一项2025年的研究表明,现有时序基础模型存在架构僵化和分布变化下鲁棒性不足的问题。该研究提出了一种双策略集成框架------通过层级集成(按门店、品类分组)和架构集成(融合多种模型)来提升基础模型的泛化能力。

3.4 你可以怎么用?

目前开源的时序大模型包括TimesFM(Google)、Moirai(Salesforce)、Chronos(Amazon)等。你可以:

  1. 用这些模型做零样本预测:直接输入你的历史数据,看效果。
  2. 微调:用自己的数据微调,通常只需少量样本就能显著提升精度。

但注意:这些模型的推理成本较高,不适合高频调用场景。

四、方向三:多模态融合------销量预测的"新燃料"

传统的销量预测只用历史销量数据。但真实的零售决策涉及的信息远不止于此。

4.1 什么是多模态销量预测?

多模态融合是指将不同类型的数据(文本、图像、视频、数值)整合到一个模型中,共同用于预测。

一个典型的例子:直播电商的销量预测。你不仅要看历史销量,还要分析主播的讲解文本、商品的展示图片、直播间的互动数据------这些信息共同决定了最终的销量。

4.2 CAMT:融合文本、时序和卫星图像

2025年提出的一种因果感知多模态Transformer(CAMT)框架,同时整合了三类数据:

· 文本数据:新闻和社交媒体上的市场动态

· 时间序列:历史需求数据

· 卫星图像:反映经济活动的宏观指标(如停车场车流量、港口货运量)

实验结果显示,CAMT在M5数据集上将RMSE降低了12.3%,MAPE改善了15.7%。其中,卫星图像的贡献最为显著。

4.3 南开大学MEMF:直播电商的多实体融合

南开大学团队提出的MEMF框架,从主播、商品、直播间三个核心实体出发,融合文本、图像、视频、音频等多种模态信息。技术实现上基于Transformer架构:

· 多模态Transformer:处理主播和直播间的多模态信息

· QuadTransformer:专门处理商品的多模态信息

· 多实体Transformer:在整体层面融合所有特征

实验结果显示,商品和视频信息对销售预测贡献最大。

4.4 你可以怎么用?

短期内:多模态融合对数据采集的要求很高(你需要文本、图像、视频数据),不适合大多数中小商家。

长期来看:如果你在做直播电商或跨境电商,这可能是必争之地。可以从文本数据入手(如商品描述、用户评论的情感分析),这相对容易实现。

五、方向四:稀疏鲁棒预测------解决"长尾商品"难题

零售商往往有大量销量稀疏的商品------日销量经常为0,偶尔卖几件。这类商品对大多数模型来说是个难题。

5.1 问题有多严重?

在一家大型在线零售商的数据中,从300万到7亿个时间序列的商品都存在严重的稀疏性问题。传统模型会系统性低估这类商品的销量,因为它们对高销量序列有隐式偏倚。

5.2 SPADE-S:专为稀疏数据设计的架构

2025年提出的SPADE-S模型,专门解决了这一问题。它的核心思路是:

· 重新设计损失函数,消除对高销量序列的偏倚

· 改进训练时的采样方法

· 优化时间序列编码方式

实验结果显示,SPADE-S可以将稀疏商品的预测精度提升最高15% 。

5.3 你可以怎么用?

这正是我的API一直在解决的问题。 在实际应用中,80%的SKU都属于"长尾"------销量稀疏、波动大。我的API在特征工程阶段就针对稀疏商品做了特殊处理(如缺货零值修复、同类商品信息借用),未来也会考虑集成类似的稀疏鲁棒技术。

六、方向五:因果推断驱动的预测

6.1 从"预测是什么"到"理解为什么"

传统的销量预测只回答"销量会是多少"。但业务决策者更想知道:"如果我做了某个动作,销量会变化多少? "

CAMT框架的一个重要创新就是引入了因果发现机制------它能识别哪些因素真正导致了销量变化,而不是仅仅相关。这帮助模型避免了虚假相关(spurious correlations)的干扰。

6.2 你可以怎么用?

我之前已经写过一篇关于因果推断的文章。在实际业务中,你可以从促销增量评估开始------用反事实预测回答"如果不做促销,会少卖多少?"这比传统的"促销前后对比"要准确得多。

七、这些技术如何落地到你的业务?

技术方向 适用场景 实施难度 推荐优先级

Transformer + 混合特征 数据量大(10万+样本) 中 ⭐⭐⭐

时序大模型(零样本) 无标注数据、快速启动 低 ⭐⭐⭐⭐

多模态融合 直播电商、跨境电商 高 ⭐⭐

稀疏鲁棒预测 长尾商品多的零售商 中 ⭐⭐⭐⭐

因果推断 促销评估、定价优化 中 ⭐⭐⭐⭐⭐

八、我的API已经在做什么?

回到你的销量预测API------虽然我们没有十亿级参数的大模型,但我们在以下几个方向上已经做了实践:

  1. Transformer特征提取:在部分用户数据上,用Transformer提取时序特征后输入LightGBM,取得了比纯LightGBM更好的效果。
  2. 稀疏商品处理:针对长尾商品,API内置了同类商品信息借用和缺货修复机制。
  3. 因果推断:API支持反事实基线预测,可用于促销增量评估。
  4. 持续迭代:随着更多用户数据的积累,我们正在评估是否引入轻量级时序大模型。

九、总结

销量预测的技术栈正在从"手工特征+树模型" 向 "大模型+多模态" 演进。但对大多数中小商家来说,不必追求最前沿的技术,而应该追求最适合自己业务的技术。

· 如果你数据量不大,时序大模型的零样本预测可能是最快上手的路径。

· 如果你有大量长尾商品,稀疏鲁棒预测值得关注。

· 如果你在做促销或定价决策,因果推断能给你带来直接的业务价值。

前沿技术是方向,不是目的地。用最适合的工具解决最痛的问题,才是正道。


互动问题:你最想尝试以上哪个方向?或者你觉得哪个方向最不切实际?评论区聊聊。