引入大模型与 RAG：价格预测准确率提升与架构实践

本文在描述的传统因子 + 树模型/线性模型 基线之上，说明在 AI 时代 如何通过大语言模型（LLM）与检索增强生成（RAG）补强「非机理信息」，并与表格侧监督学习模型 协同，形成可落地的预测链路。下文对业内常见的油价/大宗商品预测技术分享 中的思路作归纳，便于与贵司内部方案对照；具体数据与结论以贵司实验与合规要求为准。

一、为什么仅靠传统表格模型容易碰到天花板？

传统大宗商品价格预测多依赖：

可表格化的产业链与表观数据（见下文术语详解）；
机理类特征 ：与供需逻辑强相关，XGBoost / LightGBM / 线性回归 / LSTM 等在结构化数据上表现稳定。

但市场还受大量难以用固定列表达的变量 影响，例如：突发地缘与政策表述、风险偏好与情绪叙事、高频新闻中的非结构化信号 。这类信息非线性、非平稳 ，纯表格因子要么覆盖不到，要么依赖庞大人工规则。LLM 擅长语言与常识推理 ，RAG 又能用检索锚定可引用片段 ，降低空泛生成------二者结合，有望提高方向判断与极端行情 下的表现。是否转化为「准确率」数字，取决于验证集定义与是否与价格、因子正确对齐（防泄露）。

二、术语与概念详解

阅读后文「双轨架构」「四步混合流程」前，建议先对齐下列概念。

2.1 Transformer 是什么？算不算「传统模型」？

Transformer 是一种神经网络结构 （2017 年提出），核心机制是 Self-Attention（自注意力） ：让序列中每个位置都能加权聚合其它位置的信息，再叠多层 前馈网络、LayerNorm、残差连接 等。它不依赖 RNN 逐步递归，并行性好，是现代 GPT、BERT 等 LLM 的骨干结构之一。
是否「传统」 ：在大宗商品投研/量化实务 里，人们常说的「传统模型」多指 线性回归、ARIMA、XGBoost、LightGBM、浅层 MLP、LSTM 等以表格或单一时序为主、参数规模相对可控 的模型。
Transformer 属于深度学习/大模型家族 ，一般不把它和「线性+XGBoost」划在同一类「传统小模型」里；但若讨论「是否经典」，它在学术界与工业界已是主流基础结构。
在预测链路里角色 ：可用于 LLM 本体 、也可单独做多模态/多路特征融合层 （例如把文本向量与数值特征一起做注意力融合）。工程上也可用更简单模块（拼接 + 全连接、门控）替代完整 Transformer，以控制成本。

2.2 什么叫「机理特征」和「非机理特征」？

类型	含义	示例（原油场景）
机理特征	与供需、成本、库存、产能等可叙述的经济逻辑直接挂钩，多数可量化成列或经简单变换后入表	炼厂毛利、商业库存、产能利用率、进口量、裂解价差等；以及其环比、同比、移动平均
非机理特征	难以用少量固定列穷举，多来自事件、叙事、情绪、政策文本	「某制裁传闻」「OPEC 声明措辞变化」「衰退交易」等，常以新闻、公告、研报段落形式出现

要点：机理特征适合 表格监督学习 ；非机理特征适合 检索 + LLM 摘要/打标签/向量化 再与表格特征汇合。

2.3 什么是「表观数据」？

表观数据 一般指：从公开统计与业务系统中直接观测到的、已汇总或已发布 的量化指标，强调「表上能直接看到」，常与「隐含供需」「模型反推」等相对。

示例：

原油库存、产量、炼厂开工、成品油表观消费量（视统计口径定义）；
海关或协会发布的进出口量、产量；
交易所或指数公司发布的现货/期货价格、价差。

表观数据质量依赖发布节奏与修订 ，建模时要注意修订、滞后与变频对齐。

2.4 什么是「因子分析结果」？

在价格预测语境下，因子分析结果 通常指：围绕目标品种（如某原油基准价格或裂解价差），对候选指标序列 做统计或业务筛选后得到的可解释结论与可用特征，例如：

相关性 ：某指标与价格的 Pearson/Spearman 系数、滞后阶上的相关（如「领先 2 周」）；
显著性与稳定性 ：在滚动窗口上是否方向稳定 、是否伪相关；
业务筛选后的因子列表：如「库存 + 毛利 + 地缘风险代理」等进入模型的最终列。

示例：若分析显示「某地区炼厂毛利」与「国内现货价」在 4 周滞后下相关性最高，则可将该毛利序列及其滞后项作为因子分析结果固化进特征表。

2.5 「小模型」指什么？

文中 「小模型」 是相对于 百亿/千亿参数级的通用大语言模型 而言的俗称，并非数学上有严格定义。一般指：

参数量与推理成本可控 的监督学习模型：如 线性回归、岭回归、随机森林、XGBoost、LightGBM、浅层神经网络、LSTM/GRU 等；
在同一张特征表 上训练、输出数值预测或概率 ，便于 回测、上线、解释（SHAP 等）。

与 LLM 的分工 ：实务上常让 LLM 做文本理解与向量化 ，让 小模型做最终价格回归或涨跌分类 ，即「大模型出特征，小模型出数字」。

2.6 「小模型（因子融合）」是什么意思？

因子融合 指：把多路来源、多列因子合成用于预测的输入，例如：

将 价格滞后、库存、毛利、价差 等拼成一张宽表；
或将 多因子加权 、降维（PCA） 、分组建模等。

「小模型（因子融合）」 即：用 XGBoost / LightGBM / 线性模型 / LSTM 等 在结构化表上学习 「哪些因子如何组合」以预测价格，而不是用 LLM 直接报一个数字。融合可以发生在特征层 （先拼再进模型），也可以分层（先子模型再融合）。

三、业内常见方案归纳：数据管线 → 双轨建模 → 验证

以下按公开技术分享中反复出现 的结构归纳，不指向任何单一企业。

3.1 数据处理管线（调研与爬取 → 清洗 → 入库）

阶段	目标	典型动作
调研与采集	覆盖行情与资讯	多站点/API，形成价格时序与新闻文本两类
清洗	可建模、可检索	时间格式统一、剔除无正文页面、过滤失效链接等
入库	支撑后续检索与训练	按日/周等粒度组织主题新闻库等

清洗质量直接决定向量库与监督学习 是否吃进噪声；失效链接、无正文页会污染检索与标签对齐，属于必须先做实的 ETL。

3.2 双轨技术路径（结构化 vs 非结构化，「大模型 + 小模型」协同）

结构化轨（机理/表观/因子）

表观数据、因子分析得到的数值列 → 时序特征工程 → 由 2.5 节所述小模型 做回归或融合，输出可解释的数值预测或中间表征。
非结构化轨（事件/情绪/叙事）

新闻、政策、研报 → RAG 检索 相关片段 → LLM 生成摘要、情绪标签、事件类型或 embedding。
汇合

文本侧特征与价格/因子侧特征在 融合层 统一（见 2.1 节：可用 Transformer 类模块，或更简单的拼接 + MLP），再输出最终价格或涨跌方向。

为何可能提升准确率 ：把「文本里才有的边际信息」变成可训练特征 ，与纯价格序列互补；在事件驱动阶段往往对方向帮助更明显。

3.3 效果验证的常见做法

在公开材料中，常见对比包括：同一标的下，仅价格序列 vs 价格 + 新闻摘要/决策类特征 ；在 LSTM、梯度提升树、结构化数据大模型 等方案上报告准确率或方向命中率。新闻不是替代价格 ，而是增强；不同模型对文本增强的敏感度不同，需在同一套验证协议下选型。

四、「四步混合流程」是否算成熟方案？

一种常见的文字描述包含四步：

文本嵌入（Embedding）：用 LLM 或专用编码模型将新闻、研报、政策等转为向量；
时序特征工程：对价格、供需、库存等构造移动平均、波动率、环比等；
特征融合 ：结构化时序特征 + 文本向量 组成训练样本；
训练与预测 ：用 XGBoost / LightGBM / LSTM 等做最终数值预测 ，LLM 多承担特征抽取而非直接输出价格。

判断：

是成熟、可工程化的主流范式之一 ：常称为 「LLM 做表征，小模型做回归」 或 「语义特征 + 表格模型」。
不等于开箱即用 ：仍需解决时间对齐、标签泄露、向量漂移、幻觉与合规 ；融合层也未必只用简单拼接，可以是门控、注意力、两阶段校准等。

是否「成熟」取决于数据治理、回测协议、线上监控是否补齐，而非仅模块拼接。

五、引入 RAG 后，准确率通常从哪几方面改善？

维度	机制	说明
方向准确性	事件与情绪入模	宏观转折或政策冲击期，纯价格滞后明显，文本侧可补充方向信息
相对误差	极端行情	突发事件下，仅靠历史分布易低估波动，RAG 提供情境化特征
可追溯性	检索片段可审计	便于合规与业务复核
可迭代	语料与索引更新	新品种可增量建索引，不必一次改全表结构

准确率口径需与《方法论与实践》中方向一致率、相对误差阈值等定义对齐。

六、端到端链路（含 RAG 位置）

非结构化路径
结构化路径
数据源
价格与指标时序
新闻/研报/政策
时序特征工程
小模型特征 / 融合层输入
清洗与分块
向量索引构建
查询: 品种+时间窗+主题
RAG: 检索 Top-K
LLM: 摘要/标签/情绪向量
文本特征向量
特征融合
回归模型: XGBoost/LightGBM/LSTM 等
价格或涨跌预测
回测与线上监控

RAG 简要：

离线：分块、向量化、写入向量库；元数据（时间、来源、品种）可过滤。
在线/批处理 ：按预测日构造查询，检索后再由 LLM 生成摘要或向量。
融合：与同一时刻或对齐后的滞后特征拼接，避免「未来新闻」泄露。

七、落地 checklist

项	说明
数据	结构化与非结构化时间对齐、训练/验证无泄露
RAG	检索可解释、可重放；支持按品种/语言/来源过滤
模型	LLM 负责表征，最终价格仍由小模型回归输出，便于控制与回测
运维	特征漂移、向量库版本、延迟与成本
合规	语料版权、对外表述、免责声明

八、与《方法论与实践》姊妹篇的关系

《大宗商品价格预测方法论与实践》 ：侧重因子数据、传统表格模型与准确率口径。
本文：说明如何通过 LLM + RAG 引入非机理信息 ，并与小模型融合。

若当前以 指标 API + XGBoost/LightGBM 为主，可优先落地 「四步混合流程」中的最小版本 （例如先增加一维新闻情绪标量 ），用同一套验证指标对比基线，再逐步加深 RAG 与融合层。