【大模型-金融】Trading-R1 多阶段课程学习

解读Trading-R1：用"三阶段强化学习"教会LLM做出专业金融决策

本论文《Trading-R1: Financial Trading with LLM Reasoning via Reinforcement Learning》旨在解决一个核心难题：如何让大语言模型（LLM）在高风险、高噪声的金融市场中，生成既专业严谨又可执行的交易决策？ 作者指出，现有方法存在两大缺陷：通用LLM缺乏金融领域的结构化推理能力，而纯量化模型又缺乏可解释性。为此，论文提出了Trading-R1框架，通过一个"由易到难"的三阶段课程学习，结合监督微调（SFT）与强化学习（RL），成功训练出一个4B参数的开源模型，其在回测中表现优于GPT-4.1等闭源巨头。

1. 核心方法：三阶段课程学习框架

Trading-R1的核心创新在于其分阶段、渐进式的训练范式。它将复杂的金融决策任务分解为三个子目标，并依次通过SFT和RL进行优化，确保模型首先学会"像分析师一样思考"，再学会"像交易员一样决策"。

1.1 阶段一：结构化输出 (STRUCTURE)

目标：让模型学会以专业投资备忘录的格式组织其思考过程。

方法：
1. SFT暖启动：使用"逆向推理蒸馏"（Reverse Reasoning Distillation）技术，从GPT-4.1等闭源模型的最终交易建议中，反向推导出其可能的思考步骤，作为监督信号训练模型。
2. RL强化 ：使用GRPO算法，奖励模型生成符合特定XML结构的输出。例如，强制模型将分析分为<fundamentals>、<technical>、<news>、<macro>等部分。
3. 奖励函数 ：奖励包含5-7个分析部分（R_count），并奖励在每个部分内使用标题、项目符号等结构化元素（R_struct）。总结构奖励为：
  R_structure(x) = 0.6 * R_count(S) + 0.4 * (1/N) * Σ R_struct(si)

1.2 阶段二：证据支撑 (CLAIMS)

目标：解决LLM的"幻觉"问题，强制模型的所有论点必须有数据支撑。

方法：
1. SFT暖启动：继续使用蒸馏数据，但要求模型在SFT阶段就学习"观点-引用-来源"的写作模式。
2. RL强化：设计精细化的奖励函数，对模型生成的每一个论点（bullet point）进行评估。
3. 奖励函数 ：对于一个论点 b，其得分 R_bullet(b) 由三部分构成：
  - 观点质量 (R_opinion)：观点长度需在15-90词之间，且必须伴随引用。
  - 引用存在 ：奖励包含引号（italic格式）的直接引用。
  - 来源存在 ：奖励包含数据来源（inline code格式）。
    最终，该阶段的奖励 R_evidence(x) 是对所有分析部分的 R_section_evidence(c) 取调和平均数，以避免被单个低分项拉低。

1.3 阶段三：决策优化 (DECISION)

目标：将严谨的分析转化为最终的交易指令（Strong Buy, Buy, Hold, Sell, Strong Sell）。

方法：
1. SFT暖启动：训练模型学习基本的决策模式。
2. RL强化 ：这是最关键的一步。模型的最终决策 d̂ 会与一个基于波动率调整的离散化标签 d* 进行比较，并获得一个非对称的奖励 R_decision(d̂, d*)。
3. 标签生成 ：论文的核心洞见之一。不预测精确价格，而是根据多时间维度（3天、7天、15天）的经波动率调整后的收益率，将其离散化为5个等级。计算过程如下（原文Algorithm S1）：
  - 计算指数移动平均价格 EMA。
  - 计算不同时间跨度 τ 的向前收益率 R_τ = (EMA - EMA.shift(τ)) / EMA.shift(τ)。
  - 计算滚动20期的波动率 V_τ，并得到经波动率调整的信号 S_τ = R_τ / V_τ。
  - 将不同时间跨度的信号加权平均（权重0.3, 0.5, 0.2）得到复合信号 WeightedSignal。
  - 根据复合信号的分位数（3%, 15%, 53%, 85%）将信号映射为"强力卖出"到"强力买入"的五档决策
4. 非对称奖励矩阵 ：论文设计了一个精心的奖励矩阵 M，对错误的"看涨"决策施加更重的惩罚，以模拟现实中"资本保全"的优先级。例如，当真实情况是"Strong Sell"时，模型若错误预测为"Strong Buy"，将获得-2.25的重罚；反之，若真实是"Strong Buy"而模型错判为"Strong Sell"，惩罚为-2.00。
  复制代码
```
M = [
    [ 1.00,  0.75, -1.25, -2.00, -2.25],  # 预测: Strong Sell
    [ 0.75,  1.00, -0.75, -1.50, -2.00],  # 预测: Sell
    [-1.50, -1.00,  1.00, -1.00, -1.50],  # 预测: Hold
    [-1.75, -1.25, -0.75,  1.00,  0.75],  # 预测: Buy
    [-2.00, -1.50, -1.25,  0.75,  1.00]   # 预测: Strong Buy
]
```

2. 数据构造：构建高质量、多模态的金融语料库

论文成功的关键在于其精心构造的数据集 Tauric-TR1-DB，它包含100K个样本，覆盖14只股票18个月的数据。

2.1 数据来源与预处理

多模态数据整合 ：从5个异构数据源收集信息：
- 新闻：通过Finnhub API和Google News爬虫获取，按时间（近3天、4-10天、11-30天）分组。
- 技术指标 ：从Yahoo Finance获取价格和成交量，使用stockstats库计算50/200日均线、MACD、RSI、布林带等20+个指标（原文Table S2）。
- 基本面：从SimFin API和SEC备案文件中提取资产负债表、利润表、现金流量表的关键数据。
- 情绪：包括分析师评级（Yahoo Finance）和内部人交易数据（Finnhub）。
- 宏观：从FRED API获取美国宏观经济指标（如失业率、CPI、利率）。
数据增强与去噪：为提高模型鲁棒性，对每个"日期-股票"对，随机采样子集数据（如只提供技术面和新闻，或只提供基本面和宏观），并打乱顺序，生成约20个变体。同时，应用LLM作为过滤器去除低信息量的噪声文本。

2.2 标签与蒸馏数据生成

"逆向推理蒸馏" ：如前所述，这是获取高质量推理轨迹的核心。将结构化金融数据输入GPT-4.1，获取其最终交易建议，再用另一个LLM（如GPT-4.1-nano）反向推导出支撑该建议的详细推理步骤，形成 (输入, 推理轨迹, 决策) 三元组，用于SFT。
波动率驱动的离散化标签：如前所述，这是RL阶段的奖励信号。它不依赖于人工标注，而是通过算法从历史价格数据中自动生成，确保了标签的客观性和可扩展性。

3. 实验中的关键发现

论文在6只股票/ETF（NVDA, AAPL, MSFT, AMZN, META, SPY）上进行了严格的回测，时间范围为2024年6月1日至8月31日。

3.1 主要结果：全面超越基线模型

超越通用LLM ：在关键指标夏普比率（Sharpe Ratio）上，Trading-R1在NVDA上达到2.72，远超GPT-4.1的0.85和LLaMA-3.3的-0.16。
超越推理LLM ：即使是专门为推理优化的模型如DeepSeek-R1和GPT-4o-mini，在Trading-R1面前也表现不佳。例如，在AAPL上，O4-mini的夏普比率为-1.36，而Trading-R1为1.80。
超越自身组件 ：完整的Trading-R1（SFT+RL）性能优于仅用SFT或仅用RL训练的版本，证明了三阶段课程学习的有效性。例如，在NVDA上，仅SFT的夏普比率为2.72，仅RL为1.25，而完整版为2.72（原文Table 3，注：此处SFT与完整版在NVDA上巧合相同，但在其他股票如AAPL上，完整版5.82 > SFT 4.02）。

3.2 关键发现

模型规模并非万能 ：小模型（SLM，如Qwen-4B）表现最差，但有趣的是，纯推理大模型（RLM，如O3-mini, O4-mini）的表现甚至不如通用大模型（LLM，如GPT-4.1, LLaMA-3.3）。这表明，未经专门金融领域对齐的推理能力，在交易任务上可能是有害的。
结构化推理至关重要：Trading-R1系列模型（SFT, RFT, Full）的性能显著优于其他所有基线，这证明了其"先学会思考，再学会决策"的课程学习设计的巨大价值。
风险控制能力突出 ：Trading-R1不仅收益高，其最大回撤（MDD）也控制得更好。例如，在AAPL上，Trading-R1的MDD为3.68% ，而表现第二好的GPT-4.1的MDD为2.89%，但其夏普比率（1.24）远低于Trading-R1（1.80），说明Trading-R1在同等风险下能获取更高收益，或在同等收益下风险更低。

4. 评价与思考

Trading-R1是一个极具工程美感和实用价值的解决方案。它没有追求花哨的模型架构，而是通过精心设计的数据、标签和分阶段训练流程，巧妙地将LLM的通用能力引导到专业的金融决策上。其**"逆向推理蒸馏"和"波动率驱动的离散化标签"**是两大神来之笔，有效解决了金融领域高质量标注数据稀缺的核心痛点。

该方法的一个潜在不足是其对"闭源模型作为教师"的依赖。论文使用GPT-4.1来生成蒸馏数据，这可能导致Trading-R1的能力上限被教师模型所限制，且存在模型偏见传递的风险。一个可能的改进方向是，采用"自举"（Bootstrapping）策略：先用闭源模型生成第一版数据训练一个基础模型，然后用这个基础模型生成新的、更高质量的数据来迭代训练，逐步摆脱对闭源模型的依赖。

论文中设计的"非对称奖励矩阵"虽然符合金融直觉，但其参数（如-2.25, -2.00）是人工设定的，缺乏理论依据。一个更优的方案是引入"元学习"或"超网络"，让模型在训练过程中自动学习不同错误类型的惩罚权重。例如，可以设计一个轻量级的"风险偏好网络"，它根据当前市场波动率或资产特性，动态调整奖励矩阵，从而使Trading-R1能适应不同风险偏好的投资者。