大语言模型在人类层面预测未来的研究与应用

概述

这项研究将探讨语言模型(LM)能否预测未来事件。在这项研究中,将开发一个系统来自动收集信息、生成和汇总预测结果。将从一个竞争性预测平台收集有关问题的数据,以评估 LM 的预测能力。结果表明,LM 可以与具有竞争力的人类预测人员相媲美,甚至超过他们。研究表明,使用 LM 预测未来有可能为组织决策提供有用的信息。

论文地址:https://arxiv.org/pdf/2402.18563.pdf

介绍

预测未来事件在这项研究中非常重要,政府和企业利用对经济和政治趋势的预测为其决策提供依据。传统的预测方法使用统计方法和人工判断,但这些方法都有其局限性。因此,本研究开发了一个使用语言模型 (LM) 进行自动预测的系统。该系统从新闻和其他来源收集信息,并据此做出预测。然后将多个预测结合起来,得出结果。

上图概述了我们的搜索和推理系统。 我们的搜索系统会检索经过总结的新文章并将其输入推理系统,推理系统会提示 LM 进行推理和预测,然后将这些推理和预测汇总为最终预测结果。

相关研究

自动预测系统在支持人类决策方面发挥着重要作用。过去的研究曾试图利用从新闻报道中提取的问题数据集,让机器学习系统与人类预测者进行竞争。最近的研究使用了截至 2022 年的竞赛数据,结果表明,机器学习系统提高了预测的准确性,有些甚至可以与人类预测者相媲美。然而,这样的系统仍然很少见。

此外,最新研究的重点是 2023-2024 年的问题,并致力于提高机器学习系统的准确性。信息检索(IR)对事件预测非常重要,而使用 LM 可以提高问题解答能力。预测的准确性取决于校准,并通过适当的评分规则进行评估。

建议方法

-### 搜索

该系统生成搜索查询,从以前的新闻文章中检索信息,并选择最相关的文章。根据问题生成查询,然后检索文章。文章的相关性由 LM 评估,相关性较低的文章被排除在外。此外,还对文章进行总结,并将最相关的信息呈现给模型。

推论

要求模型对预测问题进行推理,以了解预测的依据并改进预测。要求模型重述或扩展问题、考虑各种可能性、消除薄弱论点并检查偏差。使用基础模型和微调模型,并列举其结果。

建筑群

综合多个模型的预测结果,生成更可靠的最终预测结果。选出最佳的提示和超参数,并将多个预测合并。

上图说明了为自我监督训练生成数据的程序。 在这种方法中,每个问题都会生成多个候选推理-预测对,然后选出比人类综合表现更好的推理-预测对,并对其进行微调。

优化

系统优化包含多种步骤,例如微调推理模型、调整超参数、优化搜索查询、改进推理过程中的总结,甚至引入集合方法。这使得预测更加准确可靠,并提高了系统性能。该系统将搜索和推理相结合,有效利用多个模型的信息来提高预测的准确性。

试验

研究表明,拟议系统在测试集上的表现接近人类的预测。

上表按类别(左)和平台(右)显示了系统评估结果。 对所有采集日期进行平均,优化系统的布赖尔得分达到 0.179(人类预测:0.149),准确率达到 0.715(人类预测:0.770)。因此,与之前的研究和基线模型相比,该系统显示出更优越的结果。此外,还详细分析了该系统的优缺点,为今后的改进提供了启示。

(a) 在提供足够相关文章的情况下,该系统的表现优于其他系统。这表明该系统有能力获取信息并进行适当处理。

(b) 对于人类不确定的问题(预测范围在 0.3 - 0.7 之间),该系统的表现优于人类。换句话说,该系统对不确定信息的预测能力优于人类。不过,在人类非常有把握的问题上,人类的表现要好于该系统。

© 获取日期越早,系统的布赖尔得分越高。这表明系统有能力快速检索并处理最新信息。

研究还表明,该系统在某些条件下进行选择性预测时的表现优于人类。这种选择性方法使该系统得以有效使用。最后,报告了该系统补充人类预测的能力。将该系统的预测与人类预测相结合,可以做出更可靠的预测。这证明了拟议系统作为实用预测工具的潜在价值。

消融

消融涉及三个不同的实验。首先,对 GPT-3.5 进行了微调评估,以表明系统的性能并不仅仅取决于 GPT-4 的能力。结果显示出微小的差异,表明系统性能会受到微调的影响。接下来,为了了解微调的好处,我们仅使用 GPT-4-Preview-1106 模型对系统进行了评估。如果不进行微调,系统性能会略有下降。最后,仅使用 GPT-4-1106-Preview 基础模型对系统进行了评估,但没有进行新闻检索。在这种情况下,系统性能降至基准水平。结果表明,微调和搜索对于提高系统性能非常重要。

结论

在这项研究中,开发出了首个能够在类似人类水平上进行预测的机器学习(ML)系统。它提供了新的搜索机制和微调方法,并提出了生成准确预测和推断的方法。它还发布了五个真实预测竞赛的数据集,为进一步研究奠定了基础。未来展望包括以下几点。

探索迭代自我监测方法:反复微调模型可促进自我完善,提高性能。

使用大型训练数据:使用大型语料库训练 LM 可望提供更好的预测能力。

领域适应性训练:将探索利用领域知识对模型进行微调的方法,以便使模型专门用于特定领域。

使用最新模型:通过使用最新模型并对其进行微调,有望获得更好的性能。

这些举措可能会使基于 LM 的系统在未来提供与具有竞争力的人工预报员一样准确的预报。

相关推荐
学术头条3 小时前
清华、智谱团队:探索 RLHF 的 scaling laws
人工智能·深度学习·算法·机器学习·语言模型·计算语言学
18号房客3 小时前
一个简单的机器学习实战例程,使用Scikit-Learn库来完成一个常见的分类任务——**鸢尾花数据集(Iris Dataset)**的分类
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·sklearn
s_yellowfish3 小时前
Linux服务器pm2 运行chatgpt-on-wechat,搭建微信群ai机器人
linux·服务器·chatgpt
强哥之神4 小时前
Nexa AI发布OmniAudio-2.6B:一款快速的音频语言模型,专为边缘部署设计
人工智能·深度学习·机器学习·语言模型·自然语言处理·音视频·openai
18号房客4 小时前
一个简单的深度学习模型例程,使用Keras(基于TensorFlow)构建一个卷积神经网络(CNN)来分类MNIST手写数字数据集。
人工智能·深度学习·机器学习·生成对抗网络·语言模型·自然语言处理·tensorflow
日出等日落6 小时前
从零开始使用MaxKB打造本地大语言模型智能问答系统与远程交互
人工智能·语言模型·自然语言处理
sunnf16 小时前
DB-GPT 智谱在线模型配置
gpt
云起无垠16 小时前
第79期 | GPTSecurity周报
gpt·aigc
AI明说16 小时前
评估大语言模型在药物基因组学问答任务中的表现:PGxQA
人工智能·语言模型·自然语言处理·数智药师·数智药学
鑫宝的学习笔记16 小时前
使用GPT进行SCI论文润色常用语句
gpt