概述
这项研究将探讨语言模型(LM)能否预测未来事件。在这项研究中,将开发一个系统来自动收集信息、生成和汇总预测结果。将从一个竞争性预测平台收集有关问题的数据,以评估 LM 的预测能力。结果表明,LM 可以与具有竞争力的人类预测人员相媲美,甚至超过他们。研究表明,使用 LM 预测未来有可能为组织决策提供有用的信息。
论文地址:https://arxiv.org/pdf/2402.18563.pdf
介绍
预测未来事件在这项研究中非常重要,政府和企业利用对经济和政治趋势的预测为其决策提供依据。传统的预测方法使用统计方法和人工判断,但这些方法都有其局限性。因此,本研究开发了一个使用语言模型 (LM) 进行自动预测的系统。该系统从新闻和其他来源收集信息,并据此做出预测。然后将多个预测结合起来,得出结果。
上图概述了我们的搜索和推理系统。 我们的搜索系统会检索经过总结的新文章并将其输入推理系统,推理系统会提示 LM 进行推理和预测,然后将这些推理和预测汇总为最终预测结果。
相关研究
自动预测系统在支持人类决策方面发挥着重要作用。过去的研究曾试图利用从新闻报道中提取的问题数据集,让机器学习系统与人类预测者进行竞争。最近的研究使用了截至 2022 年的竞赛数据,结果表明,机器学习系统提高了预测的准确性,有些甚至可以与人类预测者相媲美。然而,这样的系统仍然很少见。
此外,最新研究的重点是 2023-2024 年的问题,并致力于提高机器学习系统的准确性。信息检索(IR)对事件预测非常重要,而使用 LM 可以提高问题解答能力。预测的准确性取决于校准,并通过适当的评分规则进行评估。
建议方法
-### 搜索
该系统生成搜索查询,从以前的新闻文章中检索信息,并选择最相关的文章。根据问题生成查询,然后检索文章。文章的相关性由 LM 评估,相关性较低的文章被排除在外。此外,还对文章进行总结,并将最相关的信息呈现给模型。
推论
要求模型对预测问题进行推理,以了解预测的依据并改进预测。要求模型重述或扩展问题、考虑各种可能性、消除薄弱论点并检查偏差。使用基础模型和微调模型,并列举其结果。
建筑群
综合多个模型的预测结果,生成更可靠的最终预测结果。选出最佳的提示和超参数,并将多个预测合并。
上图说明了为自我监督训练生成数据的程序。 在这种方法中,每个问题都会生成多个候选推理-预测对,然后选出比人类综合表现更好的推理-预测对,并对其进行微调。
优化
系统优化包含多种步骤,例如微调推理模型、调整超参数、优化搜索查询、改进推理过程中的总结,甚至引入集合方法。这使得预测更加准确可靠,并提高了系统性能。该系统将搜索和推理相结合,有效利用多个模型的信息来提高预测的准确性。
试验
研究表明,拟议系统在测试集上的表现接近人类的预测。
上表按类别(左)和平台(右)显示了系统评估结果。 对所有采集日期进行平均,优化系统的布赖尔得分达到 0.179(人类预测:0.149),准确率达到 0.715(人类预测:0.770)。因此,与之前的研究和基线模型相比,该系统显示出更优越的结果。此外,还详细分析了该系统的优缺点,为今后的改进提供了启示。
(a) 在提供足够相关文章的情况下,该系统的表现优于其他系统。这表明该系统有能力获取信息并进行适当处理。
(b) 对于人类不确定的问题(预测范围在 0.3 - 0.7 之间),该系统的表现优于人类。换句话说,该系统对不确定信息的预测能力优于人类。不过,在人类非常有把握的问题上,人类的表现要好于该系统。
© 获取日期越早,系统的布赖尔得分越高。这表明系统有能力快速检索并处理最新信息。
研究还表明,该系统在某些条件下进行选择性预测时的表现优于人类。这种选择性方法使该系统得以有效使用。最后,报告了该系统补充人类预测的能力。将该系统的预测与人类预测相结合,可以做出更可靠的预测。这证明了拟议系统作为实用预测工具的潜在价值。
消融
消融涉及三个不同的实验。首先,对 GPT-3.5 进行了微调评估,以表明系统的性能并不仅仅取决于 GPT-4 的能力。结果显示出微小的差异,表明系统性能会受到微调的影响。接下来,为了了解微调的好处,我们仅使用 GPT-4-Preview-1106 模型对系统进行了评估。如果不进行微调,系统性能会略有下降。最后,仅使用 GPT-4-1106-Preview 基础模型对系统进行了评估,但没有进行新闻检索。在这种情况下,系统性能降至基准水平。结果表明,微调和搜索对于提高系统性能非常重要。
结论
在这项研究中,开发出了首个能够在类似人类水平上进行预测的机器学习(ML)系统。它提供了新的搜索机制和微调方法,并提出了生成准确预测和推断的方法。它还发布了五个真实预测竞赛的数据集,为进一步研究奠定了基础。未来展望包括以下几点。
探索迭代自我监测方法:反复微调模型可促进自我完善,提高性能。
使用大型训练数据:使用大型语料库训练 LM 可望提供更好的预测能力。
领域适应性训练:将探索利用领域知识对模型进行微调的方法,以便使模型专门用于特定领域。
使用最新模型:通过使用最新模型并对其进行微调,有望获得更好的性能。
这些举措可能会使基于 LM 的系统在未来提供与具有竞争力的人工预报员一样准确的预报。