论文阅读_股票预测强化学习_StockFormer

1 StockFormer

PLAINTEXT

|-----------------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1 2 3 4 5 6 7 | 中文名称:StockFormer: 混合交易机与预测编码 英文名称:StockFormer: Learning Hybrid Trading Machines with Predictive Coding 作者:Siyu Gao, Yunbo Wang∗, and Xiaokang Yang 机构:MoE Key Lab of Artificial Intelligence, AI Institute, Shanghai Jiao Tong University 发表时间:IJCAI-23 代码:https://github.com/gsyyysg/StockFormer 地址:https://www.ijcai.org/proceedings/2023/0530.pdf |

2 读后感

这里采用了预测编码模型与强化学习的结合方法。三个独立的预测编码模型分别用于预测短期(1 天)和长期(5 天)的回报率,以及各股票间的动态相关性。在训练预测编码模型的过程中,可获取有价值的潜在状态,并将这些状态组合成一个状态空间,用于训练强化学习模型。

论文带来一些启发:可以将复杂的问题分解为多个简单的部分进行求解,股票数据的特性使得我们可以获得中间过程的目标数据,用于分别训练模型。此外,采用强化学习的方法也消化了股票交易的复杂性,尤其适用于状态空间和动作空间不断变化的情况。

另外,作者开源的代码逻辑清晰,长短适中,也是股票 + 强化学习算法很好的入门工具。

3 摘要

  • 目的:传统的基于强化学习的金融解决方案直接在嘈杂的市场数据上优化交易策略,而没有明确考虑不同投资资产的未来趋势和相关性
  • 方法:提出了一个混合交易机器,它整合了预测编码和强化学习 的优势。该模型通过三个修改过的 Transformer 分支来提取长期和短期未来动态以及资产关系的有效潜在状态
  • 效果:在三个公开的金融数据集上,StockFormer 在投资组合回报和夏普比率方面显著优于现有方法。

4 方法

  • 预测编码:通过自监督学习方式训练三个 Transformer-like 网络分支,分别学习关系、长期和短期隐藏表示(图中灰色和橙色模块)。
  • 策略优化:在第二阶段,StockFormer 将三种类型的潜在表示集成到一个统一的状态空间中,并通过 actor-critic 方法学习交易策略(图中绿色模块)。

RL 通过与环境的交互来优化决策,在给定的状态下选择最佳的行动(买入、卖出或持有),以最大化长期回报。

5 实验

实验数据集使用了:使用 CSI-300(沪深 300:China Securities Index 300)、NASDAQ-100(美国)和加密货币市场的数据集。请注意 2019-2021 年是个牛市阶段,所以模型效果可能好于一般情况。

6 代码分析

  • 作者已将算法在 github 上开源,链接如下:https://github.com/gsyyysg/StockFormer。
  • 整个项目代码由约 12000 行 Python 组成,其中包含了强化学习工具包 stable-baseline3 的代码,若剔除此部分,剩余约 4000 行代码。
  • 项目中的数据涵盖了从 2010 年到 2022 年,总共 88 支 A 股股票的数据。
  • 项目中使用开源项目 yfinance(YahooFinance)下载股票数据,支持 A 股数据下载。
  • 项目中包含了四个模型的训练代码,对应的入口文件分别是 train_xx.py。
相关推荐
智算菩萨41 分钟前
多目标超启发式算法系统文献综述:人机协同大语言模型方法论深度精读
论文阅读·人工智能·深度学习·ai·多目标·综述
智算菩萨2 小时前
【How Far Are We From AGI】5 AGI的“道德罗盘“——价值对齐的技术路径与伦理边界
论文阅读·人工智能·深度学习·ai·接口·agi·对齐技术
wuxuand5 小时前
2026年时序分类综述论文阅读
论文阅读
StfinnWu5 小时前
论文阅读《GridDehazeNet: Attention-Based Multi-Scale Network for Image Dehazing》
论文阅读·深度学习·机器学习
智算菩萨6 小时前
AGI神话:人工通用智能的幻象如何扭曲与分散数字治理的注意力
论文阅读·人工智能·深度学习·ai·agi
红茶川7 小时前
[论文阅读] π0: A Vision-Language-Action Flow Model for General Robot Control
论文阅读·ai·具身智能·vla
Matrix_117 小时前
论文阅读:UltraFusion Ultra High Dynamic Imaging using Exposure Fusion
论文阅读·人工智能·计算摄影
智算菩萨7 小时前
【How Far Are We From AGI】4 AGI的“生理系统“——从算法架构到算力基座的工程革命
论文阅读·人工智能·深度学习·算法·ai·架构·agi
智算菩萨8 小时前
与AI一起记忆:从分布式记忆到AI策划记忆与人机共忆——文献精读
论文阅读·人工智能·分布式·深度学习·ai·文献
网安INF18 小时前
【论文阅读】-《TtBA: Two-third Bridge Approach for Decision-Based Adversarial Attack》
论文阅读·人工智能·神经网络·对抗攻击