销量预测的下一个十年：从Transformer到多模态大模型

复制代码

从ARIMA到LightGBM，再到Transformer和时序大模型------销量预测的技术范式正在被重新定义。本文梳理2025-2026年最前沿的五个方向，并探讨这些技术如何从学术论文走向你的业务。

一、一个正在发生的范式转移

如果你过去五年在关注销量预测，你应该感受到一个明显的变化：

· 2018-2022：LightGBM、XGBoost是绝对主流，特征工程是核心竞争力。

· 2023-2024：Transformer开始渗透时间序列领域，但很多人还在观望。

· 2025-2026：时序大模型（Time Series Foundation Models）爆发，多模态融合成为新战场。

2025年，京东零售推出了自研的十亿级时序大模型TimeHF，首次将RLHF（基于人类反馈的强化学习）应用于销量预测，预测准确度提升10%以上，已为2万个SKU提供自动化补货预测。与此同时，学术界提出了融合文本、时间序列甚至卫星图像的多模态Transformer框架，在M5数据集上将MAPE降低了15.7%。

这些技术不再是论文里的概念------它们正在走进现实。

但问题来了：作为一个中小商家或独立开发者，这些前沿技术跟你有什么关系？你的数据量不够大、算力不够强，大模型的门槛太高。本文不仅梳理技术趋势，更会告诉你哪些可以"拿来就用"，以及我的API已经在哪些方向上做了实践。

二、方向一：Transformer的零售落地

Transformer在NLP和CV领域早已是标配，但在时间序列预测中，它直到最近才真正展现出优势。

2.1 为什么Transformer适合销量预测？

传统RNN/LSTM模型在处理长序列时存在梯度消失问题，而Transformer的自注意力机制可以直接建模任意两个时间步之间的关系。对于零售数据来说，这意味着模型能同时捕捉：

· 长期依赖：去年同期的销量模式

· 短期峰值：促销日的瞬间爆发

2.2 最新进展：Masked Transformer with Mixed Features (MTMF)

2026年发表的一项研究提出了一种掩码Transformer与混合特征（MTMF）模型，专门用于零售需求预测。它的核心创新有三点：

集成TCN（时间卷积网络）：在Transformer基础上叠加TCN，同时捕获长期趋势和短期峰值。
掩码训练：通过随机掩码部分历史数据，让模型学会处理噪声和异常值------这在零售数据中极为常见（促销波动、缺货零值）。
混合特征：同时输入数值型时间序列和类别型特征（如商品ID、门店ID）。

实验结果显示，MTMF在多个零售数据集上取得了MSE=12.6、MAE=1.8的最佳表现。

2.3 你可以怎么用？

如果数据量在万级以下：直接用Transformer替换LSTM可能不会有明显提升，因为Transformer需要更多数据才能发挥优势。

如果数据量在十万级以上：可以尝试将Transformer作为特征提取器，输出的嵌入向量再输入LightGBM做最终预测（即"Transformer + 树模型"的混合架构）。

三、方向二：时序大模型（Time Series Foundation Models）

这是2025年最热的方向。

3.1 什么是时序大模型？

类似于GPT在NLP领域的"预训练+微调"范式，时序大模型先在海量时间序列数据上预训练，然后可以零样本（zero-shot）或少样本（few-shot）地应用于新的预测任务。

这意味着：你不需要为自己的数据集训练模型，直接用预训练好的大模型就能预测------就像你用ChatGPT不需要自己训练一样。

3.2 京东TimeHF：十亿级参数的零售实践

京东的TimeHF是这一领域的标杆。它在三个方面做了创新：

· 数据集：整合了京东自营销量数据、公开数据集和合成数据，构建了15亿样本的训练集。

· 模型架构：PCTLM（Patch Convolutional Timeseries Large Model），采用掩码编码器架构+分组注意力机制。

· 训练方法：首次将RLHF引入时序预测，设计了TPO（Timeseries Policy Optimization）框架。

效果：在多个公开数据集上达到SOTA，已部署于京东供应链。

3.3 基础模型的局限性

但基础模型并非万能。一项2025年的研究表明，现有时序基础模型存在架构僵化和分布变化下鲁棒性不足的问题。该研究提出了一种双策略集成框架------通过层级集成（按门店、品类分组）和架构集成（融合多种模型）来提升基础模型的泛化能力。

3.4 你可以怎么用？

目前开源的时序大模型包括TimesFM（Google）、Moirai（Salesforce）、Chronos（Amazon）等。你可以：

用这些模型做零样本预测：直接输入你的历史数据，看效果。
微调：用自己的数据微调，通常只需少量样本就能显著提升精度。

但注意：这些模型的推理成本较高，不适合高频调用场景。

四、方向三：多模态融合------销量预测的"新燃料"

传统的销量预测只用历史销量数据。但真实的零售决策涉及的信息远不止于此。

4.1 什么是多模态销量预测？

多模态融合是指将不同类型的数据（文本、图像、视频、数值）整合到一个模型中，共同用于预测。

一个典型的例子：直播电商的销量预测。你不仅要看历史销量，还要分析主播的讲解文本、商品的展示图片、直播间的互动数据------这些信息共同决定了最终的销量。

4.2 CAMT：融合文本、时序和卫星图像

2025年提出的一种因果感知多模态Transformer（CAMT）框架，同时整合了三类数据：

· 文本数据：新闻和社交媒体上的市场动态

· 时间序列：历史需求数据

· 卫星图像：反映经济活动的宏观指标（如停车场车流量、港口货运量）

实验结果显示，CAMT在M5数据集上将RMSE降低了12.3%，MAPE改善了15.7%。其中，卫星图像的贡献最为显著。

4.3 南开大学MEMF：直播电商的多实体融合

南开大学团队提出的MEMF框架，从主播、商品、直播间三个核心实体出发，融合文本、图像、视频、音频等多种模态信息。技术实现上基于Transformer架构：

· 多模态Transformer：处理主播和直播间的多模态信息

· QuadTransformer：专门处理商品的多模态信息

· 多实体Transformer：在整体层面融合所有特征

实验结果显示，商品和视频信息对销售预测贡献最大。

4.4 你可以怎么用？

短期内：多模态融合对数据采集的要求很高（你需要文本、图像、视频数据），不适合大多数中小商家。

长期来看：如果你在做直播电商或跨境电商，这可能是必争之地。可以从文本数据入手（如商品描述、用户评论的情感分析），这相对容易实现。

五、方向四：稀疏鲁棒预测------解决"长尾商品"难题

零售商往往有大量销量稀疏的商品------日销量经常为0，偶尔卖几件。这类商品对大多数模型来说是个难题。

5.1 问题有多严重？

在一家大型在线零售商的数据中，从300万到7亿个时间序列的商品都存在严重的稀疏性问题。传统模型会系统性低估这类商品的销量，因为它们对高销量序列有隐式偏倚。

5.2 SPADE-S：专为稀疏数据设计的架构

2025年提出的SPADE-S模型，专门解决了这一问题。它的核心思路是：

· 重新设计损失函数，消除对高销量序列的偏倚

· 改进训练时的采样方法

· 优化时间序列编码方式

实验结果显示，SPADE-S可以将稀疏商品的预测精度提升最高15% 。

5.3 你可以怎么用？

这正是我的API一直在解决的问题。在实际应用中，80%的SKU都属于"长尾"------销量稀疏、波动大。我的API在特征工程阶段就针对稀疏商品做了特殊处理（如缺货零值修复、同类商品信息借用），未来也会考虑集成类似的稀疏鲁棒技术。

六、方向五：因果推断驱动的预测

6.1 从"预测是什么"到"理解为什么"

传统的销量预测只回答"销量会是多少"。但业务决策者更想知道："如果我做了某个动作，销量会变化多少？ "

CAMT框架的一个重要创新就是引入了因果发现机制------它能识别哪些因素真正导致了销量变化，而不是仅仅相关。这帮助模型避免了虚假相关（spurious correlations）的干扰。

6.2 你可以怎么用？

我之前已经写过一篇关于因果推断的文章。在实际业务中，你可以从促销增量评估开始------用反事实预测回答"如果不做促销，会少卖多少？"这比传统的"促销前后对比"要准确得多。

七、这些技术如何落地到你的业务？

技术方向适用场景实施难度推荐优先级

Transformer + 混合特征数据量大（10万+样本）中 ⭐⭐⭐

时序大模型（零样本）无标注数据、快速启动低 ⭐⭐⭐⭐

多模态融合直播电商、跨境电商高 ⭐⭐

稀疏鲁棒预测长尾商品多的零售商中 ⭐⭐⭐⭐

因果推断促销评估、定价优化中 ⭐⭐⭐⭐⭐

八、我的API已经在做什么？

回到你的销量预测API------虽然我们没有十亿级参数的大模型，但我们在以下几个方向上已经做了实践：

Transformer特征提取：在部分用户数据上，用Transformer提取时序特征后输入LightGBM，取得了比纯LightGBM更好的效果。
稀疏商品处理：针对长尾商品，API内置了同类商品信息借用和缺货修复机制。
因果推断：API支持反事实基线预测，可用于促销增量评估。
持续迭代：随着更多用户数据的积累，我们正在评估是否引入轻量级时序大模型。

九、总结

销量预测的技术栈正在从"手工特征+树模型" 向 "大模型+多模态" 演进。但对大多数中小商家来说，不必追求最前沿的技术，而应该追求最适合自己业务的技术。

· 如果你数据量不大，时序大模型的零样本预测可能是最快上手的路径。

· 如果你有大量长尾商品，稀疏鲁棒预测值得关注。

· 如果你在做促销或定价决策，因果推断能给你带来直接的业务价值。

前沿技术是方向，不是目的地。用最适合的工具解决最痛的问题，才是正道。

互动问题：你最想尝试以上哪个方向？或者你觉得哪个方向最不切实际？评论区聊聊。