AI投资分析：用于股票评级的大型语言模型（LLMs）

"AI in Investment Analysis: LLMs for Equity Stock Ratings"

摘要

投资分析作为金融服务领域的重要组成部分，LLMs（大型语言模型）为股票评级带来了改进的潜力。传统的股票评级方式主要依靠分析师的判断，但这种方式遇到了数据量过大、文档不统一以及市场响应延迟的问题。

本研究探索了通过LLMs来增强股票评级的准确性和一致性，并测试了不同类型数据的效果。我们使用了从2022年1月至2024年6月期间收集的多个数据集，发现基于LLMs的方法在预测未来收益方面比传统方法表现更佳。结合财务基本面信息可以提高评级的准确性，而新闻资讯有助于改善短期预测，不过采用情感评分代替详细的新闻总结，可以在不影响效果的前提下降低token消耗。此外，在某些情境下，排除新闻数据能减少偏差，从而进一步提升性能。研究结果表明，LLMs能够高效处理大量多模态金融数据，提供一个既一致又精确的股票评级系统。

简介

投资分析构成了金融服务领域的核心，金融分析师通过审查财务数据和发布股票评级来辅助投资者做出决策并洞察市场趋势。股票评级是对公司未来表现的预测性评估，这对市场的认知有着重要影响。

近年来，深度学习技术与大型语言模型（LLMs）的发展大大增强了金融分析的效率和精度，这些工具能够解析海量非结构化信息，从而优化股票评级流程。LLMs在股票评级预测中的优势体现在：它们可以高效地处理复杂的数据集、根据需求生成预测结果，并融合多个数据来源以降低偏差。

本研究采用GPT-4-32k模型，探讨了LLMs如何应用于股票评级预测，同时确保不会发生信息泄露，展示了其在预估未来收益方面的卓越性能。

01相关工作

大模型在金融领域应用

LLM（大型语言模型）技术在金融行业中得到了广泛应用，涵盖了情感分析、内容摘要生成以及复杂的问答系统。研究表明，LLM在诸如股票预测、风险管理及量化交易等任务中展现出了卓越的能力。通过利用多样化的数据集和分阶段的应用方法，LLM提高了预测结果的透明度和可解释性。

例如，GPT模型通过分析新闻标题的情感得分来预测股市回报，其表现超越了传统的预测模型。它将财务新闻报道、公司基本面信息、股价变动以及宏观经济因素结合起来，以提供更精准的股票预测。此外，采用Chain-of-Thought提示和In-Context Learning技术，LLM能够生成有效的交易信号，并优化投资策略。在风险评估方面，LLM整合了财报数据、市场动态和新闻资讯，提供了深入的财务风险分析。

在量化交易的研究中，引入记忆模块和知识库增强了模型的自适应性和学习能力。LLM驱动的自主交易代理则通过分层记忆结构和知识库不断自我改进，从而更好地应对市场的变化。这些应用展示了LLM技术在金融领域中的潜力和灵活性。

分析师股票评级

股票分析师发布的评级预测旨在评估股票的未来表现，通常在公司发布季度财报、举行电话会议或发生重大事件之后。这些评级一般分为五个级别：强力买入/买入、增持、持有、减持、强力卖出/卖出。各金融机构可能采用不同的评级体系，有的基于风险调整后的表现，有的则是综合多个研究机构的评分结果。

分析师在进行评级时，会考量有关公司表现的各种定性和定量信息，为投资者提供决策支持。他们使用的数据来源广泛，包括但不限于基本面和技术分析、企业及行业的最新新闻报道、市场整体和特定行业的表现情况等。通过综合这些因素，分析师能够为投资者提供一个关于股票预期走势的专业意见。

股票评级的重要性

股票评级作为预示未来股票表现的关键指标，是投资者制定投资策略的重要参考。研究显示，股票评级对市场有着明显的影响，投资者往往会依据评级来调整其投资组合。一项针对20年间S&P500指数交易数据的研究发现，所开发的分类器在预测股价变动方面达到了很高的准确率，其中股票评级是一个关键的输入特征。

在G7国家进行的研究表明，分析师推荐意见的更新通常会引起股价的显著反应，这种现象在美国市场尤为突出。分析师推荐的变化往往伴随着股票波动性的增加和盈利预测的大幅调整。此外，在波兰市场的研究中也观察到，遵循分析师推荐的投资策略能够带来显著的超额回报。这些发现强调了分析师评级在影响市场动态和投资决策中的重要作用。

02方法

大型语言模型（LLMs）可用于解析金融数据并生成股票评级，这些模型能够处理海量信息、识别复杂的模式，并快速适应新的数据环境。它们可以高效地整合多种数据来源，提供深入的见解，这是传统方法难以企及的。LLMs可以获取与人类分析师相同的信息输入，如财务基本面数据、股价变化、新闻摘要以及情感分析等。

为了评估LLMs在投资分析领域的适用性，需要探讨哪些技术和信息能够进一步提升其性能。通过这种方式，可以确保LLMs不仅能够辅助决策，还能为投资者提供更加精准和有价值的洞察。

提示结构

采用GPT-4-32k模型，该模型具备32,000个token的上下文窗口，并且训练数据更新至2021年9月，以避免任何信息泄露。通过精心设计的系统提示，使LLM能够担当金融分析师的角色，并提供一个清晰的功能框架。明确股票评级的等级和术语，并详细描述财务基本面信息。

为了促进LLM的推理能力，我们使用Chain-of-Thought和少量示例（few-shot）提示方法，并给出输出实例作为指导。公司特定的输入数据将以结构化格式呈现，其中文本信息位于前面，而数值型数据则以表格形式展示。最后，实施基本的CoVE（验证链）流程来保证预测日期的准确性。

问题建模

为了评估这些评级的准确性，通常会分析在评级发布之后的股票市场表现，并考察不同评级类别的公司回报情况。具体来说，计算公司的实际回报𝑅 𝑐 (𝑡, 𝑝)以及相对于行业的回报 𝑅 𝑐 , 𝑠 (𝑡, 𝑝)，并将公司的回报分配到五个分位数中。通过对比各分位数中的公司回报与相应的评级，可以判断评级的正确性。为此，我们定义一个指标函数，用于量化评估每个评级的准确程度。

公司评级 𝑐 (𝑡, 𝑝) 预测未来 𝑝 个月的表现，评级值为 {-2, -1, 0, 1, 2}，分别代表强卖、适度卖、持有、适度买、强买。

03实验

数据

研究对象为2022年1月至2024年6月期间美国标准普尔500指数（S&P 500）的成分股。

分析师股票评级

在此期间，我们收集了126家公司的45,000条分析师评级记录，这些评级主要分为：维持现有评级（75.90%）、重申先前评级（7.25%）、下调评级（6.27%）、上调评级（5.68%）以及首次启动评级（4.89%）。前五大评级机构------摩根士丹利、巴克莱、富国银行、花旗和RBC资本，贡献了总评级量的31.61%。数据集包含了评级机构名称、评级发布日期及具体内容，但未包含目标日期和目标价格信息。

财经新闻摘要

我们搜集了S&P 500成分股的相关新闻报道，并运用命名实体识别（NER）技术剔除无关内容。平均而言，每月每只股票有39.63篇相关新闻文章，涉及约187,000个字符、40,000个单词，包含74.70个URL链接，同时有34.40篇新闻缺失。我们利用GPT-4-32k模型生成了公司和行业的新闻摘要，突出显示关键事件和发展趋势，并设计了两种用户提示方式以优化输出。此外，我们还通过GPT-4-32k对新闻摘要进行了情感分析，评分范围设定在-5至5之间，分别针对公司和行业制定了不同的评分模板。

股价和技术指标

我们收集了S&P 500成分股每日的收盘价，并计算了一系列技术指标，包括当前市场价格、52周的价格区间、90天的历史波动率以及过去1个月、3个月和12个月的表现。

财务基本面

我们从2022年1月至2024年3月期间，使用finagg API聚合了各公司提交给美国证券交易委员会（SEC）的季度财务报告（10-Q和10-K文件）。对于每个预测时点，我们考虑了过去四个季度的财务数据，这些报告详细列出了资产负债表、损益表和现金流量表的信息。

实验设置

我们使用GPT-4-32k模型进行了一项实验，旨在为2022年1月至2024年6月期间的S&P 500指数成分股生成股票评级。每个月初，针对每家公司预测其未来1个月、3个月、6个月、12个月和18个月的股票表现，评级选项涵盖强卖、适度卖、持有、适度买和强买。该实验覆盖了大约五个时间范围、30个起始日期以及500家不同的公司，目的是评估模型在不同时间段内的预测准确性。

为了评估模型的表现，我们采用了五种不同的方法：

Vanilla：作为基线方法，仅提供公司的历史数据，包括过去1个月、3个月和12个月的收益、当前股价、52周的价格区间及90天的波动率，总共13个数据点。
**News：**在此基础上添加新闻数据，增强Vanilla方法。此方法除了技术指标外，还提供上一个月内关于公司和行业的新闻摘要，LLM需要评估这些新闻的情感倾向（正面、负面、中性或混合），并在技术指标之前给出新闻摘要，以提升预测性能。
**Sentiment：**与Vanilla方法相似，但加入了预计算的公司和行业新闻情感分数（评分范围为-5至5），用以指导LLM的预测过程。
**Fundamentals：**在Vanilla提示的基础上增加季度财务基本面数据，如资产负债表、损益表和现金流量表中的详细指标描述，要求LLM分析这些额外的数据点以做出预测。

5**. Fundamentals + Sentiment**：结合了基本面和情感分析的方法，在提供季度财务数据的同时，也加入情感分数，使LLM能够综合考虑基本面信息和市场情绪来进行推荐。

通过这五种方法，我们希望探索不同类型的数据如何影响LLM对股票评级的预测能力，并确定哪种组合能提供最准确的预测结果。

评估

为了评估分析师评级的准确性，我们采用了一种方法，该方法基于未来1、3、6、12和18个月的收益表现来衡量，这包括了相对于整个市场以及特定行业的收益情况。一个评级被认为是准确的，当实际取得的未来收益位置（以分位数表示）与分析师给出的评级等级相符时。例如，如果一家公司被给予"强烈推荐购买"的评级，但其在接下来的6个月内收益位于较低的分位，则说明这个评级明显不准确。

为了量化这种准确性，我们使用平均绝对误差（MAE），这是一种适用于顺序分类的方法，它会考虑到市场相对收益和行业相对收益。MAE对预测值偏离真实值的程度进行惩罚，而不仅仅是计算错误的数量。此外，我们还计算了一个复合误差，即3、6和12个月期间市场相对收益MAE的平均值，用以综合评价分析师的预测能力。这里的分析师评级来源于华尔街的真实数据，并且我们将这些评级与通过大型语言模型（LLM）做出的预测进行了对比分析。

04结果

我们分析了每月的市场相对MAE和行业相对MAE数据。

传统分析师 vs 大模型

分析师给出的买入评级比例超过了95%，而卖出评级则不足5%。在预测准确性方面，大模型方法的平均绝对误差（MAE）为1.447，低于分析师预测的1.570，表明LLM的预测更为准确。然而，大模型方法的标准差为0.745，高于分析师的0.637，这反映出其预测的一致性相对较差。对于行业回报，MAE和标准差的趋势与上述情况相同。

随着前瞻期的延长，分析师预测的误差逐渐减少，在18个月的时间段上表现略好；相比之下，大模型实验的误差则随时间增加。

新闻：总结 vs 情绪

在新闻总结实验中，Return MAE（平均绝对误差）为1.491，标准差为0.738，这一表现优于其他实验方法。相比之下，新闻情绪实验的Return MAE略高，为1.496，标准差为0.752，未能显著提升预测性能。值得注意的是，无论是包含新闻摘要还是仅包含情感评分的方法，两者的表现相似，均未超过大模型实验的结果。

Sector Relative Return MAE的趋势与Return MAE一致。新闻情绪分析在1个月的时间段内表现出色，这可能是因为它提供了更清晰的公司近期表现信息，有助于提高短期预测的准确性。

基本面 vs 基本面+情绪

在基本面加情绪的实验中，Return MAE（平均绝对误差）为1.417，显示出最准确的预测性能；而仅使用基本面数据的实验，其Return MAE为1.421，标准差为0.732，表明其预测具有一致性。这两个实验在3个月、6个月和12个月的时间段内表现尤为出色，尤其是在短期内，结合基本面数据和情绪评分的方法证明是有效的。然而，在18个月的长期预测中，基本面加情绪实验的MAE有所升高，这可能暗示了长期内信号之间存在冲突。

与大模型实验和分析师预测相比，这两个模型均表现出更好的性能，突显了财务基本面信息的重要性。此外，通过包含公司和行业的感情分析而不依赖新闻摘要数据，不仅提高了预测的准确性，还减少了模型的复杂性和潜在的噪音干扰。

结果总结

大型语言模型（LLM）在短期预测中表现出色，但随着预测时间的延长，其误差逐渐增加。新闻相关的实验，特别是那些使用新闻摘要的实验，在短期内展现了最佳的表现，这主要是由于新闻对市场的即时影响所致。新闻情感分析实验与新闻摘要实验的表现相近，表明单纯的情感分析并未显著提升预测性能。

结合财务基本面数据的实验，以及将基本面与情绪分析相结合的实验，在中期预测中表现良好。相比之下，分析师的预测在长期预测中则显得更为准确，这可能归因于分析师对市场长期趋势的深入理解和判断。

新闻的功效

通过计算Spearman相关系数并生成热图，我们分析了新闻摘要和新闻情感对预测结果的影响。在新闻实验中，LLM对公司和行业的新闻摘要进行评分，随后基于这些评分预测股票评级。而在情感实验中，则使用情感评分来替代新闻摘要进行推理。

我们发现，新闻摘要在不同月份之间存在一定的相关性，特别是在接近评级发布时期的相关性更为显著。这表明新闻摘要中的信息在特定时间段内对预测具有重要影响。通过这种方式，我们可以更好地理解新闻内容及其情感倾向如何影响LLM的预测性能。

LLM生成的评级与其之前的预测存在关联，使用新闻数据使得模型倾向于给出更积极的评级。LLM评级与新闻摘要的情感评分之间表现出强烈的正相关性，即正面情感往往会引导出更为有利的评级。这种情感影响导致了评级分布中积极评级的比例增加，从而在一定程度上降低了评级的准确性。

挑战和限制

研究的评估方法依赖于固定时间段内的前向收益和收益分位数，这种方法可能会受到市场条件的影响。评估的准确性还可能受到市场情绪、公司新闻和经济指标等定性因素的左右。由于缺乏具体的评级目标日期，导致不同评估的时间跨度不一致。此外，评估过程中未充分考虑分析师在评级时所依赖的重要因素，如对未来表现的预测、财务报告和投资者情绪等。模型也未经过测试来验证其处理大量信息的能力，而这是分析师在做出评估时通常需要审查的内容。

05总结

本研究旨在探索大型语言模型（LLMs）在股票评级预测中的潜力。通过整合多种信息来源，如基本财务数据、技术分析指标、财经新闻摘要、新闻情感分析以及财务基本面信息，我们评估了LLMs在此任务中的表现，并分析了不同数据源对预测效果的影响。