通过自适应提示提升大语言模型的零样本推理能力

随着大模型（LLMs）的快速发展，它们在自然语言处理（NLP）任务上取得了前所未有的成就。特别是，LLMs展现出了强大的推理和规划能力，这得益于它们的少样本和零样本学习能力。然而，现有的方法仍存在一些限制，例如在少样本设置中，性能对示例选择非常敏感，而在零样本设置中，由于缺乏对LLMs的指导，性能受限。

为了解决这些限制，论文提出了COSP，这是一种不需要手工示例或真实标签的算法。作为一种新颖的提示设计方法，它旨在提升大模型（LLMs）在零样本（Zero-Shot）推理任务中的表现。该方法不依赖于手工制作的响应或真实标签，而是通过利用LLM自身生成的输出来构建上下文示例，从而引导模型进行更准确的推理。COSP包含两个主要阶段：

第一阶段：构建生成响应池和示例选择器

在这一阶段，COSP首先通过零样本链式思考（Zero-shot CoT）对所有测试问题进行查询，收集LLM生成的响应。这一过程涉及以下步骤：

候选池构建：对于每个测试问题，LLM被查询多次以生成多个推理路径和可能的答案。这些路径和答案构成了候选池，其中的每个元素都是一个潜在的示例。
一致性驱动的示例选择：从候选池中选择一组示例。这一选择过程非常关键，因为：
- 需要从大量候选项中选择少量（通常小于等于10）示例。
- 候选池本身可能包含错误，因为它们是在没有真实标签的情况下生成的。
为了解决这些问题，COSP使用自一致性来精简候选池，并在没有真实标签的情况下选择示例。具体来说，对于每个测试问题，COSP首先计算所有预测答案的多数投票预测，并保留导致多数投票预测的推理路径，同时剪枝掉其他可能错误的推理-答案对。
结果熵计算：COSP使用结果熵作为自一致性的度量，以识别适合的问答对。结果熵是一个受自一致性启发的度量，用于捕捉LLM对其预测的不确定性。
惩罚重复性 ：COSP还引入了一种量化措施来惩罚重复性，因为重复的示例往往会导致性能下降。

第二阶段：使用生成的上下文示例进行查询

在第二阶段，COSP将选定的示例作为上下文信息与测试问题结合，并再次查询LLM。这一阶段的步骤如下：

上下文示例的拼接：将选定的示例作为上下文信息与测试问题拼接，形成新的查询。
LLM的再次查询：使用新的查询对LLM进行查询，以生成第二轮的推理路径和答案。
最终预测的形成：通过对第一阶段和第二阶段生成的所有答案进行多数投票，形成每个问题的最终预测。

COSP方法的一个关键创新之处在于它如何从LLM自身的输出中选择和构建示例集。通过精心设计的评分函数，COSP在考虑一致性、多样性和重复性的基础上，选择最有助于提升LLM推理能力的示例。此外，COSP还可以适应性地调整每个问题所使用的示例数量，以及在少数样本设置中利用标记样本来增强性能。

实验结果

在实验部分，COSP方法在多种算术和逻辑推理任务上的表现进行了全面评估，涉及了PaLM-62B、PaLM-540B和GPT-3三种大型语言模型。实验的目的在于验证COSP在零样本学习环境下提升LLMs推理能力的有效性。结果显示，在没有任何真实标签指导的情况下，COSP通过自适应选择和构建示例集，显著提高了模型的推理准确率，平均提升幅度达到了10-15%。这一改进在统计上具有显著性，证明了COSP方法在缺乏明确示例和标签时，依然能够有效地引导LLMs进行逻辑推理。

特别值得一提的是，COSP在多数任务上的表现不仅超越了传统的零样本基线，而且达到了与少数样本学习方法相当的水平。这一发现表明，COSP提供的自适应提示对于LLMs来说是一种有效的推理引导手段，能够在没有额外标注数据的情况下，复现类似少数样本学习的性能提升。此外，COSP的方法还显示出了良好的通用性和适应性，这意味着它可以被广泛应用于多种不同的LLMs和任务类型中。

尽管COSP在实验中取得了令人鼓舞的结果，但论文也指出了该方法的一些局限性。例如，COSP依赖于模型的自一致性来预测准确性，这可能在某些任务上不总是有效的。此外，当面对极端困难的任务时，COSP可能无法提供显著的性能改进。尽管如此，COSP仍然为零样本推理任务提供了一个有前景的解决方案，并且它的设计理念为未来LLMs的应用和进一步的研究开辟了新的可能性。

论文链接：http://arxiv.org/pdf/2305.14106