论文阅读_FinRL-DeepSeek:大语言模型赋能的风险敏感强化学习交易代理

  • 英文名称:FinRL-DeepSeek: LLM-Infused Risk-Sensitive Reinforcement Learning for Trading Agents

  • 中文名称:FinRL-DeepSeek:大语言模型赋能的风险敏感强化学习交易代理

  • 链接: https://arxiv.org/pdf/2502.07393v1 (5页短论文)

  • 作者: Mostapha Benhenda

  • 机构: LAGA --- Laboratoire Analyse, Géométrie et Applications, Université Paris 8, CNRS

  • 开源项目:https://github.com/benstaf/FinRL_DeepSeek (287 Star)

  • 日期:2025-02-11

1 读后感

最近市场波动较大,不少人感到压力,如何降低资产波动性、实现平稳增长显得尤为重要。这篇论文介绍了一种将强化学习与大模型结合的方法,通过整合新闻等文本信息,优化交易推荐和风险评估。与传统强化学习方法相比,论文通过修改PPO公式,引入模型输出的微调动作和惩罚项,虽收益未显著提升,但回撤更小,表现更稳定。

2 摘要

目标:利用大语言模型从新闻中提取的风险与交易信号,构建一个更稳健、能控制极端风险的强化学习交易代理。

方法:在 CPPO(风险敏感版 PPO)的基础上,注入 LLM 生成的风险评估与交易建议因子,使其直接影响奖励函数与动作决策;并在 Nasdaq-100 上使用 FNSPID 新闻数据、搭配 DeepSeek V3、Qwen 2.5、Llama 3.3 进行回测验证。

结论:加入 LLM 信号后,策略整体收益未必更高,但风险暴露显著下降,回撤更小,表现更稳定,说明文本驱动的风险因子对强化学习交易策略具有实际价值。

3 具体方法

该方法使用 FNSPID 数据集(包含 1999-2023 年的 1570 万条时间对齐的金融新闻记录)。为降低 LLM API 的成本,每天随机为每只股票选择一篇代表性新闻文章,将数据集缩减至 200 万条记录。然后使用 LLMs(DeepSeek V3、Qwen2.5 72B、Llama3.3 70B),通过下列提示词提取股票推荐和风险评估。

论文中使用了改进后的 PPO 策略:条件风险价值 - 近端策略优化(CVaR-PPO),并在这个策略中加入了大模型提取的因子。

3.1 提示词

让大模型直接给新闻打分,将文本描述转化为可量化的因子。

推荐提示词:

"You are a financial expert with stock recommendation experience. Based on a specific stock, score for range from 1 to 5, where 1 is negative, 2 is somewhat negative, 3 is neutral, 4 is somewhat positive, 5 is positive."

风险提示词:

"You are a financial expert specializing in risk assessment for stock recommendations. Based on a specific stock, provide a risk score from 1 to 5, where: 1 indicates very low risk, 2 indicates low risk, 3 indicates moderate risk (default if the news lacks any clear indication of risk), 4 indicates high risk, and 5 indicates very high risk."

3.2 CVaR-PPO

CVaR-PPO 即 CPPO,来自 2022 年的论文:doi: 10.24963/ijcai.2022/510。它在标准 PPO 的目标上 加了对尾部大亏损的惩罚项(基于 CVaR)

D(πθ) 是轨迹回报;(η−D)+=max⁡(0,η−D) 表示超过阈值 η 之下的亏损(即尾部损失);α 是置信水平(例如 0.05 表示最坏 5%);λ 是拉格朗日乘子(控制惩罚强度),β 为辅助惩罚项。也就是说,它在不修改 PPO 的剪切机制的同时,把"避免极端亏损"作为额外优化目标强制引入。

3.3 将模型打分注入 CPPO

将 LLM 从新闻中提取的风险等级转化为一个缩放系数,用来调整轨迹回报(D)。

  • 如果新闻判断风险高 → (R_f < 1 ) → 削弱回报 → 更容易落入 CVaR 罚项 → 策略更保守

  • 如果新闻判断风险低 → (R_f > 1 ) → 放大回报 → 鼓励策略多冒险

将 LLM 从新闻中提取的推荐信号作用在"动作上"

  • (S_f > 1 ) → 强化买入动作(如果 LLM 推荐"看多")

  • (S_f < 1 ) → 压制买入 / 放大卖出 动作(如果 LLM 推荐"看空")

  • (S_f ≈ 1 ) → LLM 的影响极弱(稳定训练)

总结:

因子 注入位置 数学作用 行为作用
R(风险因子) 轨迹回报 (D) (D' = R_f D) 改变奖励结构,影响 CVaR 罚项,属于 "风险认知层"
S(推荐因子) 策略输出动作 (a) (a' = S_f a) 调节动作强弱,属于 "策略偏置层"

3.4 实验结果

训练到 2 百万步(100 epochs) 后,各策略(PPO、CPPO 及其各自注入 LLM 信号的版本)累积收益对比图。在这个图中,整体收益最好的是直接使用 PPO 策略的,但它也有最大的抖动。大家持有体检更好的可能是红色线,因为收益差不多的情况下,回撤更小。

表 -1 中评价了:

  • IR:跑赢基准的稳定性

  • CVaR:极端亏损的严重程度

  • Rachev Ratio:尾部收益与尾部亏损的对比

4 思考

如果直接将 S/R 因子加入特征集 {X},也可以用,但本质上只是"弱耦合":把信息丢给 PPO,让它自己慢慢体会,想用就用,不想用就当成噪音。论文的做法则是"强耦合":直接将因子写进奖励和动作里,改动策略梯度本身,实际上是对模型的决策方向进行干预。

相关推荐
HELLO程序员2 分钟前
Claude Code 2.1 发布:2026 年 AI 智能体开发的范式革命
人工智能
DFCED6 分钟前
OpenClaw部署实战:5分钟搭建你的专属AI数字员工(附避坑指南)
人工智能·大模型·agent·openclaw
Java新手村8 分钟前
基于 Vue 3 + Spring Boot 3 的 AI 面试辅助系统:实时语音识别 + 大模型智能回答
vue.js·人工智能·spring boot
Junlan2716 分钟前
Cursor使用入门及连接服务器方法(更新中)
服务器·人工智能·笔记
robot_learner21 分钟前
OpenClaw, 突然走红的智能体
人工智能
ujainu小21 分钟前
CANN仓库内容深度解读:昇腾AI生态的基石与AIGC发展的引擎
人工智能·aigc
rcc862823 分钟前
AI应用核心技能:从入门到精通的实战指南
人工智能·机器学习
霖大侠28 分钟前
【无标题】
人工智能·深度学习·机器学习
callJJ37 分钟前
Spring AI 文本聊天模型完全指南:ChatModel 与 ChatClient
java·大数据·人工智能·spring·spring ai·聊天模型
是店小二呀1 小时前
CANN 异构计算的极限扩展:从算子融合到多卡通信的统一优化策略
人工智能·深度学习·transformer