大语言模型在人类层面预测未来的研究与应用

概述

这项研究将探讨语言模型(LM)能否预测未来事件。在这项研究中,将开发一个系统来自动收集信息、生成和汇总预测结果。将从一个竞争性预测平台收集有关问题的数据,以评估 LM 的预测能力。结果表明,LM 可以与具有竞争力的人类预测人员相媲美,甚至超过他们。研究表明,使用 LM 预测未来有可能为组织决策提供有用的信息。

论文地址:https://arxiv.org/pdf/2402.18563.pdf

介绍

预测未来事件在这项研究中非常重要,政府和企业利用对经济和政治趋势的预测为其决策提供依据。传统的预测方法使用统计方法和人工判断,但这些方法都有其局限性。因此,本研究开发了一个使用语言模型 (LM) 进行自动预测的系统。该系统从新闻和其他来源收集信息,并据此做出预测。然后将多个预测结合起来,得出结果。

上图概述了我们的搜索和推理系统。 我们的搜索系统会检索经过总结的新文章并将其输入推理系统,推理系统会提示 LM 进行推理和预测,然后将这些推理和预测汇总为最终预测结果。

相关研究

自动预测系统在支持人类决策方面发挥着重要作用。过去的研究曾试图利用从新闻报道中提取的问题数据集,让机器学习系统与人类预测者进行竞争。最近的研究使用了截至 2022 年的竞赛数据,结果表明,机器学习系统提高了预测的准确性,有些甚至可以与人类预测者相媲美。然而,这样的系统仍然很少见。

此外,最新研究的重点是 2023-2024 年的问题,并致力于提高机器学习系统的准确性。信息检索(IR)对事件预测非常重要,而使用 LM 可以提高问题解答能力。预测的准确性取决于校准,并通过适当的评分规则进行评估。

建议方法

-### 搜索

该系统生成搜索查询,从以前的新闻文章中检索信息,并选择最相关的文章。根据问题生成查询,然后检索文章。文章的相关性由 LM 评估,相关性较低的文章被排除在外。此外,还对文章进行总结,并将最相关的信息呈现给模型。

推论

要求模型对预测问题进行推理,以了解预测的依据并改进预测。要求模型重述或扩展问题、考虑各种可能性、消除薄弱论点并检查偏差。使用基础模型和微调模型,并列举其结果。

建筑群

综合多个模型的预测结果,生成更可靠的最终预测结果。选出最佳的提示和超参数,并将多个预测合并。

上图说明了为自我监督训练生成数据的程序。 在这种方法中,每个问题都会生成多个候选推理-预测对,然后选出比人类综合表现更好的推理-预测对,并对其进行微调。

优化

系统优化包含多种步骤,例如微调推理模型、调整超参数、优化搜索查询、改进推理过程中的总结,甚至引入集合方法。这使得预测更加准确可靠,并提高了系统性能。该系统将搜索和推理相结合,有效利用多个模型的信息来提高预测的准确性。

试验

研究表明,拟议系统在测试集上的表现接近人类的预测。

上表按类别(左)和平台(右)显示了系统评估结果。 对所有采集日期进行平均,优化系统的布赖尔得分达到 0.179(人类预测:0.149),准确率达到 0.715(人类预测:0.770)。因此,与之前的研究和基线模型相比,该系统显示出更优越的结果。此外,还详细分析了该系统的优缺点,为今后的改进提供了启示。

(a) 在提供足够相关文章的情况下,该系统的表现优于其他系统。这表明该系统有能力获取信息并进行适当处理。

(b) 对于人类不确定的问题(预测范围在 0.3 - 0.7 之间),该系统的表现优于人类。换句话说,该系统对不确定信息的预测能力优于人类。不过,在人类非常有把握的问题上,人类的表现要好于该系统。

© 获取日期越早,系统的布赖尔得分越高。这表明系统有能力快速检索并处理最新信息。

研究还表明,该系统在某些条件下进行选择性预测时的表现优于人类。这种选择性方法使该系统得以有效使用。最后,报告了该系统补充人类预测的能力。将该系统的预测与人类预测相结合,可以做出更可靠的预测。这证明了拟议系统作为实用预测工具的潜在价值。

消融

消融涉及三个不同的实验。首先,对 GPT-3.5 进行了微调评估,以表明系统的性能并不仅仅取决于 GPT-4 的能力。结果显示出微小的差异,表明系统性能会受到微调的影响。接下来,为了了解微调的好处,我们仅使用 GPT-4-Preview-1106 模型对系统进行了评估。如果不进行微调,系统性能会略有下降。最后,仅使用 GPT-4-1106-Preview 基础模型对系统进行了评估,但没有进行新闻检索。在这种情况下,系统性能降至基准水平。结果表明,微调和搜索对于提高系统性能非常重要。

结论

在这项研究中,开发出了首个能够在类似人类水平上进行预测的机器学习(ML)系统。它提供了新的搜索机制和微调方法,并提出了生成准确预测和推断的方法。它还发布了五个真实预测竞赛的数据集,为进一步研究奠定了基础。未来展望包括以下几点。

探索迭代自我监测方法:反复微调模型可促进自我完善,提高性能。

使用大型训练数据:使用大型语料库训练 LM 可望提供更好的预测能力。

领域适应性训练:将探索利用领域知识对模型进行微调的方法,以便使模型专门用于特定领域。

使用最新模型:通过使用最新模型并对其进行微调,有望获得更好的性能。

这些举措可能会使基于 LM 的系统在未来提供与具有竞争力的人工预报员一样准确的预报。

相关推荐
AltmanChan25 分钟前
大语言模型安全威胁
人工智能·安全·语言模型
爱技术的小伙子44 分钟前
【ChatGPT】如何通过逐步提示提高ChatGPT的细节描写
人工智能·chatgpt
johnny2331 小时前
《大模型应用开发极简入门》笔记
笔记·chatgpt
Jina AI10 小时前
RAG 系统的分块难题:小型语言模型如何找到最佳断点?
人工智能·语言模型·自然语言处理
-派神-11 小时前
大语言模型(LLM)量化基础知识(一)
人工智能·语言模型·自然语言处理
ToToBe12 小时前
L1G3000 提示工程(Prompt Engineering)
chatgpt·prompt
龙的爹233312 小时前
论文 | Legal Prompt Engineering for Multilingual Legal Judgement Prediction
人工智能·语言模型·自然语言处理·chatgpt·prompt
bytebeats14 小时前
我用 Spring AI 集成 OpenAI ChatGPT API 创建了一个 Spring Boot 小程序
spring boot·chatgpt·openai
数据智能老司机15 小时前
LLM工程师手册——监督微调
深度学习·架构·llm
知来者逆17 小时前
使用 GPT-4V 全面评估泛化情绪识别 (GER)
人工智能·gpt·语言模型·自然语言处理·gpt-4v