【股票预测】用NLP预测金融趋势的随机时间序列模型

- 一、研究背景与意义
- [二、核心模型：ST-GAN（Stochastic Time-series Generative Adversarial Network）](#二、核心模型：ST-GAN（Stochastic Time-series Generative Adversarial Network）)
- - [1. 模型定位](#1. 模型定位)
  - [2. 两阶段架构设计](#2. 两阶段架构设计)
  - - （1）第一阶段：朴素贝叶斯情感分析（文本处理）
    - （2）第二阶段：时序GAN（数值+文本融合预测）
- 三、实验设计与数据
- - [1. 数据来源与处理](#1. 数据来源与处理)
  - - （1）数值数据
    - （2）文本数据
  - [2. 实验设置](#2. 实验设置)
- 四、实验结果
- - [1. 核心结论](#1. 核心结论)
  - [2. 关键数据（以波音股票为例）](#2. 关键数据（以波音股票为例）)
  - [3. 可视化结果](#3. 可视化结果)
- 五、研究贡献与未来方向
- - [1. 核心贡献](#1. 核心贡献)
  - [2. 未来方向](#2. 未来方向)
- 六、参考文献核心支撑

一、研究背景与意义

股票预测的挑战性：股票价格预测是复杂且重要的研究领域，全球股市波动性强，早期经济学家（如Alfred Cowles）认为股票预测效果与随机概率差异不大；但随着大数据与机器学习发展，研究者发现金融市场的随机性中可能蕴含跨领域数据模式。
现有模型的不足：多数机器学习模型（如线性回归、随机森林、RNN等）仅依赖金融数值数据（如股价、成交量），忽略了文本数据的影响------股票价格受散户决策驱动，而散户决策依赖新闻等文本信息，因此需结合文本与数值数据提升预测效果。
选择航空航天行业的原因：该行业是金融市场的"试金石"，2018年仅美国航空航天企业出口额就达1510亿美元，且具有全球性，其行业前景预测可反映全球及美国本土经济状况，故选择该行业8家企业股票作为研究对象。

论文：A Stochastic Time Series Model for Predicting Financial Trends using NLP
作者：Pratyush Muthukumar1 and Jie Zhong2
单位：1Department of Computer Science, University of California, Irvine 2Department of Mathematics, California State University, Los Angeles
代码：

请各位同学给我点赞，激励我创作更好、更多、更优质的内容！^_^

关注微信公众号 ，获取更多资讯

二、核心模型：ST-GAN（Stochastic Time-series Generative Adversarial Network）

1. 模型定位

创新性融合自然语言处理（NLP）的情感分析结果与金融数值数据，基于生成对抗网络（GAN）构建时序预测模型，解决"文本与数值特征有效结合"及"稀疏/低相关金融数据学习"两大核心挑战。

2. 两阶段架构设计

（1）第一阶段：朴素贝叶斯情感分析（文本处理）

目标：将金融文本转化为可量化的情感向量，作为GAN的 latent space 输入。
处理逻辑 ：
- 文本来源：Seeking Alpha、福布斯、MarketWatch、Twitter等平台的新闻，及航空航天企业的 earnings conference calls（ECCs，对股价影响直接）。
- 情感分类：对文本逐句分析，输出{积极（1）、中性（0）、消极（-1）}三类情感标签。
- 算法原理：基于朴素贝叶斯的生成模型特性，假设文本中词语相对独立，通过公式计算句子所属情感类别，核心公式为：
  a r g max ⁡ y ∈ Y P ( Y ) ∏ x k ∈ X P ( x k ∣ Y ) arg \operatorname*{max}{y \in Y} \mathbb{P}(Y) \prod{x_{k} \in X} \mathbb{P}\left(x_{k} | Y\right) argmaxy∈YP(Y)∏xk∈XP(xk∣Y)
- 向量生成：选取置信度最高的100个句子情感结果，标准化为100维向量（均值0、标准差1），作为GAN生成器的初始 latent 向量（替代传统GAN的随机噪声）。

（2）第二阶段：时序GAN（数值+文本融合预测）

网络结构 ：
- 生成器（Generator）：采用LSTM网络，输入为"128维金融数值特征"与"朴素贝叶斯输出的100维情感向量"，输出为特定时间的股票价格预测值。
- 判别器（Discriminator）：采用1D-CNN网络，含3个卷积层与2个全连接层，任务是区分"真实金融数据"与"生成器预测数据"。
训练逻辑 ：
- 遵循GAN的 minimax 博弈：判别器最小化分类损失（准确区分真实/生成数据），生成器最大化判别器损失（"欺骗"判别器）。
- 损失函数（基于InfoGAN改进，融入latent向量调优）：
  E ( G , D ) = 1 2 ( E x ∼ p t [ 1 − D ( x ) ] + E x ∼ p z [ D ( x ) ] ) E(G, D)=\frac{1}{2}\left(\mathbb{E}{x \sim p{t}}[1-D(x)]+\mathbb{E}{x \sim p{z}}[D(x)]\right) E(G,D)=21(Ex∼pt[1−D(x)]+Ex∼pz[D(x)])
  其中 p t p_t pt为真实数值数据分布， p z p_z pz为情感向量（latent变量）分布。

图5：我们的GAN模型的LSTM生成器网络和CNN鉴别器网络的模型架构。

三、实验设计与数据

1. 数据来源与处理

（1）数值数据

来源：Yahoo Finance 历史股价数据，覆盖8家航空航天企业（波音BA、洛克希德·马丁LMT、空客AIR.PA等，总部遍布北美、南美、欧洲）。
时间范围：2010年1月1日-2020年3月6日（10年数据，含短期/长期事件影响），训练集（2010.1.1-2020.1.24）、测试集（2020.1.25-2020.3.6）。
特征工程：计算7日/21日移动平均、MACD（指数平滑异同平均线）、布林带（上下轨），通过傅里叶变换提取股价趋势，结合ARIMA(5,1,0)模型的自回归参数作为补充特征。

（2）文本数据

采集方式：通过网络爬虫收集"标题含8家企业名称"的新闻，重点分析ECCs文本。
额外处理：对文本中提及的"非航空航天企业"进行"基于上下文的情感分析"（如分析波音新闻中提及的韩国电力公司的情感倾向，辅助判断波音股价关联影响）。

2. 实验设置

预测目标：1天、15天、30天短期/长期股价（15天、30天预测不依赖新真实数据，仅用模型历史预测结果，避免数据泄露）。
评估指标 ：RMSE（均方根误差）、NRMSE（标准化均方根误差，用于跨模型对比），公式分别为：
R M S E = ∑ i = 1 n ( y ^ i − y i ) 2 n , N R M S E = R M S E y ‾ RMSE =\sqrt{\sum_{i=1}^{n} \frac{\left(\hat{y}{i}-y{i}\right)^{2}}{n}}, \quad NRMSE=\frac{ RMSE }{\overline{y}} RMSE=∑i=1nn(y^i−yi)2 ,NRMSE=yRMSE
对比模型：传统模型（GAN、FC-LSTM、ARIMA(5,1,0)、单独情感分析）、现有股价预测模型（GAN-FD、VolTAGE、DP-LSTM）。

四、实验结果

1. 核心结论

ST-GAN在所有预测时间维度（1天、15天、30天）的RMSE与NRMSE均显著低于对比模型，平均NRMSE较现有最优深度学习模型降低32.2%。

2. 关键数据（以波音股票为例）

指标	模型	1天预测	15天预测	30天预测
RMSE	ST-GAN	0.16	2.39	4.37
	GAN	0.74	6.13	11.74
	ARIMA(5,1,0)	1.94	19.34	32.43
NRMSE	ST-GAN	0.00049	0.00751	0.01326
	GAN	0.00229	0.03693	0.06193
	单独情感分析	0.02133	0.28383	0.53063

3. 可视化结果

图6（ST-GAN vs 所有基线模型）、图7（ST-GAN vs 现有研究模型）显示：30天预测中，ST-GAN预测值与真实股价（Ground Truth）贴合度最高，其他模型（如ARIMA、单独情感分析）误差显著更大。

五、研究贡献与未来方向

1. 核心贡献

文本理解优化：采用高时间分辨率的情感分析技术，突破传统文本处理深度限制。
时序生成预测创新：改进GAN以适应时序数据，证明生成模型在金融时序任务中优于判别模型（如逻辑回归）。
文本-数值融合新方法：首次将文本情感向量直接作为GAN生成器的latent输入，实现跨模态数据有效结合。

2. 未来方向

量化"情感分析对预测精度的单独贡献"。
提升预测时间频率（如小时级、分钟级）。
将模型扩展到更多行业股票，构建更多样化的投资组合预测。

六、参考文献核心支撑

情感分析：Tan et al. (2009) 提出朴素贝叶斯用于情感分析；Narayanan et al. (2009) 文本逐句情感趋势识别。
GAN基础：Goodfellow et al. (2014) 原始GAN框架；Chen et al. (2016) InfoGAN（融入latent变量调优）。
金融预测对比：Zhou et al. (2018) GAN-FD；Sawhney et al. (2020) VolTAGE；Li et al. (2019) DP-LSTM。