大语言模型在人类层面预测未来的研究与应用

概述

这项研究将探讨语言模型（LM）能否预测未来事件。在这项研究中，将开发一个系统来自动收集信息、生成和汇总预测结果。将从一个竞争性预测平台收集有关问题的数据，以评估 LM 的预测能力。结果表明，LM 可以与具有竞争力的人类预测人员相媲美，甚至超过他们。研究表明，使用 LM 预测未来有可能为组织决策提供有用的信息。

论文地址：https://arxiv.org/pdf/2402.18563.pdf

介绍

预测未来事件在这项研究中非常重要，政府和企业利用对经济和政治趋势的预测为其决策提供依据。传统的预测方法使用统计方法和人工判断，但这些方法都有其局限性。因此，本研究开发了一个使用语言模型 (LM) 进行自动预测的系统。该系统从新闻和其他来源收集信息，并据此做出预测。然后将多个预测结合起来，得出结果。

上图概述了我们的搜索和推理系统。我们的搜索系统会检索经过总结的新文章并将其输入推理系统，推理系统会提示 LM 进行推理和预测，然后将这些推理和预测汇总为最终预测结果。

建议方法

-### 搜索

该系统生成搜索查询，从以前的新闻文章中检索信息，并选择最相关的文章。根据问题生成查询，然后检索文章。文章的相关性由 LM 评估，相关性较低的文章被排除在外。此外，还对文章进行总结，并将最相关的信息呈现给模型。

推论

要求模型对预测问题进行推理，以了解预测的依据并改进预测。要求模型重述或扩展问题、考虑各种可能性、消除薄弱论点并检查偏差。使用基础模型和微调模型，并列举其结果。

建筑群

综合多个模型的预测结果，生成更可靠的最终预测结果。选出最佳的提示和超参数，并将多个预测合并。

上图说明了为自我监督训练生成数据的程序。在这种方法中，每个问题都会生成多个候选推理-预测对，然后选出比人类综合表现更好的推理-预测对，并对其进行微调。

优化

系统优化包含多种步骤，例如微调推理模型、调整超参数、优化搜索查询、改进推理过程中的总结，甚至引入集合方法。这使得预测更加准确可靠，并提高了系统性能。该系统将搜索和推理相结合，有效利用多个模型的信息来提高预测的准确性。

试验

研究表明，拟议系统在测试集上的表现接近人类的预测。

上表按类别（左）和平台（右）显示了系统评估结果。对所有采集日期进行平均，优化系统的布赖尔得分达到 0.179（人类预测：0.149），准确率达到 0.715（人类预测：0.770）。因此，与之前的研究和基线模型相比，该系统显示出更优越的结果。此外，还详细分析了该系统的优缺点，为今后的改进提供了启示。

(a) 在提供足够相关文章的情况下，该系统的表现优于其他系统。这表明该系统有能力获取信息并进行适当处理。

(b) 对于人类不确定的问题（预测范围在 0.3 - 0.7 之间），该系统的表现优于人类。换句话说，该系统对不确定信息的预测能力优于人类。不过，在人类非常有把握的问题上，人类的表现要好于该系统。

研究还表明，该系统在某些条件下进行选择性预测时的表现优于人类。这种选择性方法使该系统得以有效使用。最后，报告了该系统补充人类预测的能力。将该系统的预测与人类预测相结合，可以做出更可靠的预测。这证明了拟议系统作为实用预测工具的潜在价值。

消融

消融涉及三个不同的实验。首先，对 GPT-3.5 进行了微调评估，以表明系统的性能并不仅仅取决于 GPT-4 的能力。结果显示出微小的差异，表明系统性能会受到微调的影响。接下来，为了了解微调的好处，我们仅使用 GPT-4-Preview-1106 模型对系统进行了评估。如果不进行微调，系统性能会略有下降。最后，仅使用 GPT-4-1106-Preview 基础模型对系统进行了评估，但没有进行新闻检索。在这种情况下，系统性能降至基准水平。结果表明，微调和搜索对于提高系统性能非常重要。

结论

在这项研究中，开发出了首个能够在类似人类水平上进行预测的机器学习（ML）系统。它提供了新的搜索机制和微调方法，并提出了生成准确预测和推断的方法。它还发布了五个真实预测竞赛的数据集，为进一步研究奠定了基础。未来展望包括以下几点。

探索迭代自我监测方法：反复微调模型可促进自我完善，提高性能。

使用大型训练数据：使用大型语料库训练 LM 可望提供更好的预测能力。

领域适应性训练：将探索利用领域知识对模型进行微调的方法，以便使模型专门用于特定领域。

使用最新模型：通过使用最新模型并对其进行微调，有望获得更好的性能。

这些举措可能会使基于 LM 的系统在未来提供与具有竞争力的人工预报员一样准确的预报。

大语言模型在人类层面预测未来的研究与应用

概述

介绍

相关研究

建议方法

推论

建筑群

优化

试验

消融

结论