FinRL-DeepSeek: 大语言模型赋能的风险敏感型强化学习交易代理

"FinRL-DeepSeek: LLM-Infused Risk-Sensitive Reinforcement Learning for Trading Agents"

摘要

本文介绍了一种将强化学习与大型语言模型（LLM）相结合的风险敏感型交易代理。具体而言，我们对条件风险价值近端策略优化（CPPO）算法进行了改进，新增了由LLM产出的风险评估及交易建议信号功能。通过在纳斯达克100指数这一基准上执行回测，并利用FNSPID数据集中的金融新闻资料来支持分析。在此过程中，采用了DeepSeek V3、Qwen 2.5以及Llama 3.3等语言模型以增强系统的性能和决策质量. 这种方法不仅能够更好地应对金融市场中的不确定性，还能够利用先进的自然语言处理技术从海量文本信息中提取有价值的投资线索，从而提升整体交易策略的效果。

简介

自动交易代理虽然广泛采用了强化学习（RL）技术，但往往忽略了将金融新闻等替代数据源融入决策过程，同时也缺乏对风险管理的充分考虑。本文提出了一种创新的混合型RL-LLM交易代理，该代理能够在行动层面和风险层面整合金融新闻的洞察力。其主要贡献在于引入了基于大型语言模型（LLM）生成的风险评估分数和交易建议，这不仅展现了LLM在提取新闻特征方面的潜力，还超越了传统的单纯情感分析方法。这种能力是通过精心设计的提示工程来实现的，从而更有效地利用金融新闻中的信息. 这一方法有助于提升交易代理在复杂市场环境中的适应能力和决策质量。

01相关工作

关于使用大型语言模型（LLM）增强强化学习（RL）代理的研究正在不断涌现，不过目前所采用的方法相对较为基础和简单。例如，在FinGPT中，RL被用于对LLM进行股票价格预测的训练，这种方法相较于本文所述的研究更为复杂，因为它直接利用现有的LLM API来实现功能。此外，还有其他的混合RL-LLM方法，比如FINCON，它通过多智能体之间的协作机制来提炼复杂的市场信息，而本研究则仅采用了较为简单的提示策略。与这些方法不同的是，"纯LLM"代理完全依赖于LLM自身生成的推荐来进行决策，而不涉及额外的RL组件或复杂的多智能体交互过程. 这些差异反映了不同研究在设计LLM增强RL代理时所采取的不同策略和技术深度。

02数据和LLM提示

本研究采用了FNSPID数据集，该数据集涵盖了从1999年至2023年间的1570万条时间对齐的金融新闻记录。为了减少使用大型语言模型（LLM）API所带来的成本，我们从每只股票每日的新闻中随机选取了一篇最具代表性的新闻文章，从而将数据规模缩减至200万条记录。随后，利用选定的大型语言模型（包括DeepSeek V3、Qwen 2.5 72B以及Llama 3.3 70B），对这些精选新闻进行分析，以提取股票推荐信息和风险评估结果。为此，我们设计了特定的提示指令，旨在引导模型有效地生成所需的股票建议和风险评估内容。

股票推荐提示：

"假设您是一位拥有股票推荐经验的金融专家。针对某一只特定的股票，请给出从1到5的评分，其中1代表负面评价，2表示略偏负面，3为中性，4意味着略偏正面，而5则是正面评价。"

风险评估提示：

"设想您是一名专注于股票推荐风险评估的金融专家。基于某只具体的股票，请提供一个从1到5的风险评分：其中1表示极低风险，2代表低风险，3为中等风险（如果新闻中没有明确的风险指示，则默认选择此项），4表示高风险，5则意味着极高风险。"

这两种提示均旨在引导模型根据专业知识和上下文信息，对股票进行合理的评价与风险等级划分。

03交易算法

仅基于价格数据的强化学习代理

近端策略优化（PPO）

近端策略优化（PPO）通过裁剪概率比率来保证策略更新的稳定性，这是其核心机制：

其中的关键成分包括：

**r_t(θ)：**即新旧策略在时间t的动作概率比率；
**A_t：**表示时间t的优势函数估计值；
**ϵ：**这是一个用于限制策略更新幅度的剪切参数。

条件风险价值-近端策略优化（CVaR-PPO）是在标准PPO算法的基础上增加了风险约束的一种变体，它通过对高损失的轨迹施加惩罚来降低整体风险。

条件风险价值-近端策略优化（CONDITIONAL VALUE AT RISK-PROXIMAL POLICY OPTIMIZATION, CVAR-PPO）

CVaR-PPO是在传统的PPO算法基础上加入了风险约束，通过对高损失的轨迹施加惩罚来优化策略。其目标函数由两部分组成：PPO的目标函数与CVaR相关的损失项。其中，CVaR损失的具体计算公式如下：

主要涉及的参数包括：

L_{PPO}(theta)：PPO目标。
D(pi_theta)：轨迹回报。
eta：CVaR阈值。
(eta - D(pi_theta))^+：超出阈值的CVaR损失。
λ：强制约束的拉格朗日乘子。
alpha：CVaR置信水平（例如，0.05对应最差的5%情况）。
beta：辅助惩罚参数。用来进一步调整风险控制的程度。

这种方法首次被引入到股票交易领域中，旨在通过更精细的风险管理提升投资组合的表现。

LLM-infused PPO

LLM-infused PPO利用FNSPID数据集来计算股票推荐分数Sf，该分数对交易行为产生影响。交易行为公式：

Sf > 1：视为正面推荐，将增强动作幅度；
Sf < 1：则为负面推荐，会减弱动作幅度；
Sf = 1：动作保持不变。

Sf选择接近1以保持算法稳定性。

Sf = 1.1：股票分数5且a t > 0或分数1且a t < 0。
Sf = 1.05：股票分数4且a t > 0或分数2且a t < 0。
Sf = 0.95：股票分数4且a t < 0或分数2且a t > 0。
Sf = 0.9：股票分数5且a t < 0或分数1且a t > 0。

LLM-infused CVaR-PPO(CPPO)

利用FNSPID数据集中的金融新闻信息，为每只股票生成风险评分Rif，为了确保算法的稳定性，该评分值设定为接近1。

风险评分分类如下：

当Rif=1.1时，表示该股票具有极高风险，对应风险评分为5；Rif=1.05时，则表示高风险，评分为4；

Rif=1时，意味着中等风险，评分为3；

Rif=0.95，则表明低风险，评分为2；

Rif=0.9时，代表极低风险，评分为1。

聚合风险评分被定义为：

其中w i为股票i在投资组合中的权重，且∑w i = 1。

这些评分用于调整CVaR-PPO（条件风险价值-近端策略优化）中的轨迹收益，从而体现市场风险。调整后的收益计算方式为：

金融新闻通过股票推荐分数Sf和风险评分Rf对交易行为产生影响，其中Sf反映了新闻对股票推荐的影响，而Rf则量化了新闻带来的风险评估变化。

04结果

早期停止：400-500k训练步数

在测试过程中，我们采用了10%的LLM注入比例，这使得原PPO算法和CPPO算法的性能均达到了10%的提升水平。

图1

训练时间段设定为2019年至2022年，期间总共完成了500,000次迭代步骤，具体分为25个训练轮次（epoch），每个轮次包含20,000步。而实际交易操作则发生在2023年。

根据图1展示的与Qwen 2.5相关的初步实验结果，我们可以看到，通过整合大型语言模型（LLM）提供的股票推荐建议，能够持续地提升近端策略优化算法（PPO）在累积回报方面的表现23。不过，尽管有这样的改进，当前这种方法生成的投资策略仍然未能超越纳斯达克100指数的整体表现。

图2

训练时间范围设定在2013年至2018年，总共经历了400,000步的训练迭代，这被划分为20个epoch，每个epoch包含20,000步。交易实践则发生在2019年至2023年之间。

针对PPO和条件风险价值近端策略优化（CPPO）算法，当采用更长的训练周期（6年对比3年）时，实验数据表明其成果有了明显的提升。然而，即便如此，PPO算法的表现仍然显得不够稳定。在其余条件一致的前提下，DeepSeek V3相较于Llama 3.3展现出略微的优势。但在本次测试中，引入大型语言模型（LLM）的应用反而普遍导致了性能的下降。

在训练了200万步之后

图3

图4

在这两次实验运行中，由于强化学习代理具有随机性，PPO算法以及CPPO-DeepSeek的表现超越了其他方法，甚至超过了纳斯达克100指数这一基准。观察发现，PPO算法在牛市环境中展现出更优的性能，而CPPO-DeepSeek则在熊市条件下表现更为出色。这种策略效果的转变大约发生在2021年底，即乌克兰战争爆发及后续危机之前的时期。

LLM注射强度的影响

我们对LLM的注入强度参数进行了调整，将其从10%逐步降低至0.1%，这意味着LLM扰动参数的范围也相应地从0.9到1.1缩小到了0.999到1.001之间。

图5

对于PPO-DeepSeek而言，增强LLM的注入通常会导致性能下降，即便仅仅是0.1%这样细微的扰动，也可能会产生负面影响。

图6

对于CPPO-DeepSeek来说，增加更强的LLM注入能够提升其性能表现。

05总结

本文介绍了一种将大语言模型（LLM）融入强化学习（RL）代理的方法，应用于算法交易中，该方法整合了股票交易建议与基于新闻的风险评估分数。

未来的研究方向包括：

优化内存使用，由于长时间的训练过程需要消耗大量内存，因此提高内存使用效率对于实现系统的可扩展性至关重要。
加快决策速度，以便更迅速地对市场变动做出反应，从而改善交易成果。
提高新闻信号的质量，通过优化FNSPID数据集中包含的新闻信号来进一步增强市场表现。