目录
-
- 一、研究背景与意义
- [二、核心模型:ST-GAN(Stochastic Time-series Generative Adversarial Network)](#二、核心模型:ST-GAN(Stochastic Time-series Generative Adversarial Network))
-
- [1. 模型定位](#1. 模型定位)
- [2. 两阶段架构设计](#2. 两阶段架构设计)
- 三、实验设计与数据
- 四、实验结果
-
- [1. 核心结论](#1. 核心结论)
- [2. 关键数据(以波音股票为例)](#2. 关键数据(以波音股票为例))
- [3. 可视化结果](#3. 可视化结果)
- 五、研究贡献与未来方向
-
- [1. 核心贡献](#1. 核心贡献)
- [2. 未来方向](#2. 未来方向)
- 六、参考文献核心支撑
一、研究背景与意义
-
股票预测的挑战性:股票价格预测是复杂且重要的研究领域,全球股市波动性强,早期经济学家(如Alfred Cowles)认为股票预测效果与随机概率差异不大;但随着大数据与机器学习发展,研究者发现金融市场的随机性中可能蕴含跨领域数据模式。
-
现有模型的不足:多数机器学习模型(如线性回归、随机森林、RNN等)仅依赖金融数值数据(如股价、成交量),忽略了文本数据的影响------股票价格受散户决策驱动,而散户决策依赖新闻等文本信息,因此需结合文本与数值数据提升预测效果。
-
选择航空航天行业的原因:该行业是金融市场的"试金石",2018年仅美国航空航天企业出口额就达1510亿美元,且具有全球性,其行业前景预测可反映全球及美国本土经济状况,故选择该行业8家企业股票作为研究对象。
论文:A Stochastic Time Series Model for Predicting Financial Trends using NLP
作者:Pratyush Muthukumar1 and Jie Zhong2
单位:1Department of Computer Science, University of California, Irvine 2Department of Mathematics, California State University, Los Angeles
代码:
请各位同学给我点赞,激励我创作更好、更多、更优质的内容!^_^
关注微信公众号 ,获取更多资讯

二、核心模型:ST-GAN(Stochastic Time-series Generative Adversarial Network)
1. 模型定位
创新性融合自然语言处理(NLP)的情感分析结果与金融数值数据,基于生成对抗网络(GAN)构建时序预测模型,解决"文本与数值特征有效结合"及"稀疏/低相关金融数据学习"两大核心挑战。
2. 两阶段架构设计
(1)第一阶段:朴素贝叶斯情感分析(文本处理)
- 目标:将金融文本转化为可量化的情感向量,作为GAN的 latent space 输入。
- 处理逻辑 :
- 文本来源:Seeking Alpha、福布斯、MarketWatch、Twitter等平台的新闻,及航空航天企业的 earnings conference calls(ECCs,对股价影响直接)。
- 情感分类:对文本逐句分析,输出{积极(1)、中性(0)、消极(-1)}三类情感标签。
- 算法原理:基于朴素贝叶斯的生成模型特性,假设文本中词语相对独立,通过公式计算句子所属情感类别,核心公式为:
a r g max y ∈ Y P ( Y ) ∏ x k ∈ X P ( x k ∣ Y ) arg \operatorname*{max}{y \in Y} \mathbb{P}(Y) \prod{x_{k} \in X} \mathbb{P}\left(x_{k} | Y\right) argmaxy∈YP(Y)∏xk∈XP(xk∣Y) - 向量生成:选取置信度最高的100个句子情感结果,标准化为100维向量(均值0、标准差1),作为GAN生成器的初始 latent 向量(替代传统GAN的随机噪声)。
(2)第二阶段:时序GAN(数值+文本融合预测)
- 网络结构 :
- 生成器(Generator):采用LSTM网络,输入为"128维金融数值特征"与"朴素贝叶斯输出的100维情感向量",输出为特定时间的股票价格预测值。
- 判别器(Discriminator):采用1D-CNN网络,含3个卷积层与2个全连接层,任务是区分"真实金融数据"与"生成器预测数据"。
- 训练逻辑 :
- 遵循GAN的 minimax 博弈:判别器最小化分类损失(准确区分真实/生成数据),生成器最大化判别器损失("欺骗"判别器)。
- 损失函数(基于InfoGAN改进,融入latent向量调优):
E ( G , D ) = 1 2 ( E x ∼ p t [ 1 − D ( x ) ] + E x ∼ p z [ D ( x ) ] ) E(G, D)=\frac{1}{2}\left(\mathbb{E}{x \sim p{t}}[1-D(x)]+\mathbb{E}{x \sim p{z}}[D(x)]\right) E(G,D)=21(Ex∼pt[1−D(x)]+Ex∼pz[D(x)])
其中 p t p_t pt为真实数值数据分布, p z p_z pz为情感向量(latent变量)分布。

图5:我们的GAN模型的LSTM生成器网络和CNN鉴别器网络的模型架构。
三、实验设计与数据
1. 数据来源与处理
(1)数值数据
- 来源:Yahoo Finance 历史股价数据,覆盖8家航空航天企业(波音BA、洛克希德·马丁LMT、空客AIR.PA等,总部遍布北美、南美、欧洲)。
- 时间范围:2010年1月1日-2020年3月6日(10年数据,含短期/长期事件影响),训练集(2010.1.1-2020.1.24)、测试集(2020.1.25-2020.3.6)。
- 特征工程:计算7日/21日移动平均、MACD(指数平滑异同平均线)、布林带(上下轨),通过傅里叶变换提取股价趋势,结合ARIMA(5,1,0)模型的自回归参数作为补充特征。
(2)文本数据
- 采集方式:通过网络爬虫收集"标题含8家企业名称"的新闻,重点分析ECCs文本。
- 额外处理:对文本中提及的"非航空航天企业"进行"基于上下文的情感分析"(如分析波音新闻中提及的韩国电力公司的情感倾向,辅助判断波音股价关联影响)。
2. 实验设置
- 预测目标:1天、15天、30天短期/长期股价(15天、30天预测不依赖新真实数据,仅用模型历史预测结果,避免数据泄露)。
- 评估指标 :RMSE(均方根误差)、NRMSE(标准化均方根误差,用于跨模型对比),公式分别为:
R M S E = ∑ i = 1 n ( y ^ i − y i ) 2 n , N R M S E = R M S E y ‾ RMSE =\sqrt{\sum_{i=1}^{n} \frac{\left(\hat{y}{i}-y{i}\right)^{2}}{n}}, \quad NRMSE=\frac{ RMSE }{\overline{y}} RMSE=∑i=1nn(y^i−yi)2 ,NRMSE=yRMSE - 对比模型:传统模型(GAN、FC-LSTM、ARIMA(5,1,0)、单独情感分析)、现有股价预测模型(GAN-FD、VolTAGE、DP-LSTM)。
四、实验结果
1. 核心结论
ST-GAN在所有预测时间维度(1天、15天、30天)的RMSE与NRMSE均显著低于对比模型,平均NRMSE较现有最优深度学习模型降低32.2%。
2. 关键数据(以波音股票为例)
| 指标 | 模型 | 1天预测 | 15天预测 | 30天预测 |
|---|---|---|---|---|
| RMSE | ST-GAN | 0.16 | 2.39 | 4.37 |
| GAN | 0.74 | 6.13 | 11.74 | |
| ARIMA(5,1,0) | 1.94 | 19.34 | 32.43 | |
| NRMSE | ST-GAN | 0.00049 | 0.00751 | 0.01326 |
| GAN | 0.00229 | 0.03693 | 0.06193 | |
| 单独情感分析 | 0.02133 | 0.28383 | 0.53063 |
3. 可视化结果
- 图6(ST-GAN vs 所有基线模型)、图7(ST-GAN vs 现有研究模型)显示:30天预测中,ST-GAN预测值与真实股价(Ground Truth)贴合度最高,其他模型(如ARIMA、单独情感分析)误差显著更大。
五、研究贡献与未来方向
1. 核心贡献
- 文本理解优化:采用高时间分辨率的情感分析技术,突破传统文本处理深度限制。
- 时序生成预测创新:改进GAN以适应时序数据,证明生成模型在金融时序任务中优于判别模型(如逻辑回归)。
- 文本-数值融合新方法:首次将文本情感向量直接作为GAN生成器的latent输入,实现跨模态数据有效结合。
2. 未来方向
- 量化"情感分析对预测精度的单独贡献"。
- 提升预测时间频率(如小时级、分钟级)。
- 将模型扩展到更多行业股票,构建更多样化的投资组合预测。
六、参考文献核心支撑
- 情感分析:Tan et al. (2009) 提出朴素贝叶斯用于情感分析;Narayanan et al. (2009) 文本逐句情感趋势识别。
- GAN基础:Goodfellow et al. (2014) 原始GAN框架;Chen et al. (2016) InfoGAN(融入latent变量调优)。
- 金融预测对比:Zhou et al. (2018) GAN-FD;Sawhney et al. (2020) VolTAGE;Li et al. (2019) DP-LSTM。