【股票预测】用NLP预测金融趋势的随机时间序列模型

目录

一、研究背景与意义

  1. 股票预测的挑战性:股票价格预测是复杂且重要的研究领域,全球股市波动性强,早期经济学家(如Alfred Cowles)认为股票预测效果与随机概率差异不大;但随着大数据与机器学习发展,研究者发现金融市场的随机性中可能蕴含跨领域数据模式。

  2. 现有模型的不足:多数机器学习模型(如线性回归、随机森林、RNN等)仅依赖金融数值数据(如股价、成交量),忽略了文本数据的影响------股票价格受散户决策驱动,而散户决策依赖新闻等文本信息,因此需结合文本与数值数据提升预测效果。

  3. 选择航空航天行业的原因:该行业是金融市场的"试金石",2018年仅美国航空航天企业出口额就达1510亿美元,且具有全球性,其行业前景预测可反映全球及美国本土经济状况,故选择该行业8家企业股票作为研究对象。

    论文:A Stochastic Time Series Model for Predicting Financial Trends using NLP
    作者:Pratyush Muthukumar1 and Jie Zhong2
    单位:1Department of Computer Science, University of California, Irvine 2Department of Mathematics, California State University, Los Angeles
    代码:

请各位同学给我点赞,激励我创作更好、更多、更优质的内容!^_^

关注微信公众号 ,获取更多资讯

二、核心模型:ST-GAN(Stochastic Time-series Generative Adversarial Network)

1. 模型定位

创新性融合自然语言处理(NLP)的情感分析结果与金融数值数据,基于生成对抗网络(GAN)构建时序预测模型,解决"文本与数值特征有效结合"及"稀疏/低相关金融数据学习"两大核心挑战。

2. 两阶段架构设计

(1)第一阶段:朴素贝叶斯情感分析(文本处理)
  • 目标:将金融文本转化为可量化的情感向量,作为GAN的 latent space 输入。
  • 处理逻辑
    • 文本来源:Seeking Alpha、福布斯、MarketWatch、Twitter等平台的新闻,及航空航天企业的 earnings conference calls(ECCs,对股价影响直接)。
    • 情感分类:对文本逐句分析,输出{积极(1)、中性(0)、消极(-1)}三类情感标签。
    • 算法原理:基于朴素贝叶斯的生成模型特性,假设文本中词语相对独立,通过公式计算句子所属情感类别,核心公式为:
      a r g max ⁡ y ∈ Y P ( Y ) ∏ x k ∈ X P ( x k ∣ Y ) arg \operatorname*{max}{y \in Y} \mathbb{P}(Y) \prod{x_{k} \in X} \mathbb{P}\left(x_{k} | Y\right) argmaxy∈YP(Y)∏xk∈XP(xk∣Y)
    • 向量生成:选取置信度最高的100个句子情感结果,标准化为100维向量(均值0、标准差1),作为GAN生成器的初始 latent 向量(替代传统GAN的随机噪声)。
(2)第二阶段:时序GAN(数值+文本融合预测)
  • 网络结构
    • 生成器(Generator):采用LSTM网络,输入为"128维金融数值特征"与"朴素贝叶斯输出的100维情感向量",输出为特定时间的股票价格预测值。
    • 判别器(Discriminator):采用1D-CNN网络,含3个卷积层与2个全连接层,任务是区分"真实金融数据"与"生成器预测数据"。
  • 训练逻辑
    • 遵循GAN的 minimax 博弈:判别器最小化分类损失(准确区分真实/生成数据),生成器最大化判别器损失("欺骗"判别器)。
    • 损失函数(基于InfoGAN改进,融入latent向量调优):
      E ( G , D ) = 1 2 ( E x ∼ p t [ 1 − D ( x ) ] + E x ∼ p z [ D ( x ) ] ) E(G, D)=\frac{1}{2}\left(\mathbb{E}{x \sim p{t}}[1-D(x)]+\mathbb{E}{x \sim p{z}}[D(x)]\right) E(G,D)=21(Ex∼pt[1−D(x)]+Ex∼pz[D(x)])
      其中 p t p_t pt为真实数值数据分布, p z p_z pz为情感向量(latent变量)分布。

图5:我们的GAN模型的LSTM生成器网络和CNN鉴别器网络的模型架构。

三、实验设计与数据

1. 数据来源与处理

(1)数值数据
  • 来源:Yahoo Finance 历史股价数据,覆盖8家航空航天企业(波音BA、洛克希德·马丁LMT、空客AIR.PA等,总部遍布北美、南美、欧洲)。
  • 时间范围:2010年1月1日-2020年3月6日(10年数据,含短期/长期事件影响),训练集(2010.1.1-2020.1.24)、测试集(2020.1.25-2020.3.6)。
  • 特征工程:计算7日/21日移动平均、MACD(指数平滑异同平均线)、布林带(上下轨),通过傅里叶变换提取股价趋势,结合ARIMA(5,1,0)模型的自回归参数作为补充特征。
(2)文本数据
  • 采集方式:通过网络爬虫收集"标题含8家企业名称"的新闻,重点分析ECCs文本。
  • 额外处理:对文本中提及的"非航空航天企业"进行"基于上下文的情感分析"(如分析波音新闻中提及的韩国电力公司的情感倾向,辅助判断波音股价关联影响)。

2. 实验设置

  • 预测目标:1天、15天、30天短期/长期股价(15天、30天预测不依赖新真实数据,仅用模型历史预测结果,避免数据泄露)。
  • 评估指标 :RMSE(均方根误差)、NRMSE(标准化均方根误差,用于跨模型对比),公式分别为:
    R M S E = ∑ i = 1 n ( y ^ i − y i ) 2 n , N R M S E = R M S E y ‾ RMSE =\sqrt{\sum_{i=1}^{n} \frac{\left(\hat{y}{i}-y{i}\right)^{2}}{n}}, \quad NRMSE=\frac{ RMSE }{\overline{y}} RMSE=∑i=1nn(y^i−yi)2 ,NRMSE=yRMSE
  • 对比模型:传统模型(GAN、FC-LSTM、ARIMA(5,1,0)、单独情感分析)、现有股价预测模型(GAN-FD、VolTAGE、DP-LSTM)。

四、实验结果

1. 核心结论

ST-GAN在所有预测时间维度(1天、15天、30天)的RMSE与NRMSE均显著低于对比模型,平均NRMSE较现有最优深度学习模型降低32.2%。

2. 关键数据(以波音股票为例)

指标 模型 1天预测 15天预测 30天预测
RMSE ST-GAN 0.16 2.39 4.37
GAN 0.74 6.13 11.74
ARIMA(5,1,0) 1.94 19.34 32.43
NRMSE ST-GAN 0.00049 0.00751 0.01326
GAN 0.00229 0.03693 0.06193
单独情感分析 0.02133 0.28383 0.53063

3. 可视化结果

  • 图6(ST-GAN vs 所有基线模型)、图7(ST-GAN vs 现有研究模型)显示:30天预测中,ST-GAN预测值与真实股价(Ground Truth)贴合度最高,其他模型(如ARIMA、单独情感分析)误差显著更大。

五、研究贡献与未来方向

1. 核心贡献

  1. 文本理解优化:采用高时间分辨率的情感分析技术,突破传统文本处理深度限制。
  2. 时序生成预测创新:改进GAN以适应时序数据,证明生成模型在金融时序任务中优于判别模型(如逻辑回归)。
  3. 文本-数值融合新方法:首次将文本情感向量直接作为GAN生成器的latent输入,实现跨模态数据有效结合。

2. 未来方向

  1. 量化"情感分析对预测精度的单独贡献"。
  2. 提升预测时间频率(如小时级、分钟级)。
  3. 将模型扩展到更多行业股票,构建更多样化的投资组合预测。

六、参考文献核心支撑

  • 情感分析:Tan et al. (2009) 提出朴素贝叶斯用于情感分析;Narayanan et al. (2009) 文本逐句情感趋势识别。
  • GAN基础:Goodfellow et al. (2014) 原始GAN框架;Chen et al. (2016) InfoGAN(融入latent变量调优)。
  • 金融预测对比:Zhou et al. (2018) GAN-FD;Sawhney et al. (2020) VolTAGE;Li et al. (2019) DP-LSTM。
相关推荐
LeeZhao@2 小时前
【狂飙全模态】狂飙AGI-智能视频生成助手
人工智能·redis·语言模型·音视频·agi
AI营销干货站2 小时前
2025金融风控:AI实战四步法
大数据·人工智能
十铭忘2 小时前
SAM2跟踪的理解5——prompt encoder
人工智能
深度学习lover2 小时前
<数据集>yolo茶叶嫩芽识别数据集<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·茶叶嫩芽识别
小龙报2 小时前
【算法通关指南:算法基础篇(四)】二维差分专题:1.【模板】差分 2.地毯
c语言·数据结构·c++·深度学习·神经网络·算法·自然语言处理
你们补药再卷啦2 小时前
ai(四)基础知识
人工智能
得物技术2 小时前
从0到1搭建一个智能分析OBS埋点数据的AI Agent|得物技术
人工智能·agent
乾元2 小时前
动态路由策略回归测试:把 CI/CD 思想带入网络路由(工程化 · Near-term)
运维·服务器·网络·人工智能·ci/cd·架构·智能路由器
AI视觉网奇2 小时前
live2d 全身数字人
人工智能·计算机视觉