通过自适应提示提升大语言模型的零样本推理能力

随着大模型(LLMs)的快速发展,它们在自然语言处理(NLP)任务上取得了前所未有的成就。特别是,LLMs展现出了强大的推理和规划能力,这得益于它们的少样本和零样本学习能力。然而,现有的方法仍存在一些限制,例如在少样本设置中,性能对示例选择非常敏感,而在零样本设置中,由于缺乏对LLMs的指导,性能受限。

为了解决这些限制,论文提出了COSP,这是一种不需要手工示例或真实标签的算法。作为一种新颖的提示设计方法,它旨在提升大模型(LLMs)在零样本(Zero-Shot)推理任务中的表现。该方法不依赖于手工制作的响应或真实标签,而是通过利用LLM自身生成的输出来构建上下文示例,从而引导模型进行更准确的推理。COSP包含两个主要阶段:

第一阶段:构建生成响应池和示例选择器

在这一阶段,COSP首先通过零样本链式思考(Zero-shot CoT)对所有测试问题进行查询,收集LLM生成的响应。这一过程涉及以下步骤:

  1. 候选池构建:对于每个测试问题,LLM被查询多次以生成多个推理路径和可能的答案。这些路径和答案构成了候选池,其中的每个元素都是一个潜在的示例。

  2. 一致性驱动的示例选择:从候选池中选择一组示例。这一选择过程非常关键,因为:

    • 需要从大量候选项中选择少量(通常小于等于10)示例。
    • 候选池本身可能包含错误,因为它们是在没有真实标签的情况下生成的。

    为了解决这些问题,COSP使用自一致性来精简候选池,并在没有真实标签的情况下选择示例。具体来说,对于每个测试问题,COSP首先计算所有预测答案的多数投票预测,并保留导致多数投票预测的推理路径,同时剪枝掉其他可能错误的推理-答案对。

  3. 结果熵计算:COSP使用结果熵作为自一致性的度量,以识别适合的问答对。结果熵是一个受自一致性启发的度量,用于捕捉LLM对其预测的不确定性。

  4. 惩罚重复性 :COSP还引入了一种量化措施来惩罚重复性,因为重复的示例往往会导致性能下降。

第二阶段:使用生成的上下文示例进行查询

在第二阶段,COSP将选定的示例作为上下文信息与测试问题结合,并再次查询LLM。这一阶段的步骤如下:

  1. 上下文示例的拼接:将选定的示例作为上下文信息与测试问题拼接,形成新的查询。

  2. LLM的再次查询:使用新的查询对LLM进行查询,以生成第二轮的推理路径和答案。

  3. 最终预测的形成:通过对第一阶段和第二阶段生成的所有答案进行多数投票,形成每个问题的最终预测。

COSP方法的一个关键创新之处在于它如何从LLM自身的输出中选择和构建示例集。通过精心设计的评分函数,COSP在考虑一致性、多样性和重复性的基础上,选择最有助于提升LLM推理能力的示例。此外,COSP还可以适应性地调整每个问题所使用的示例数量,以及在少数样本设置中利用标记样本来增强性能。

实验结果

在实验部分,COSP方法在多种算术和逻辑推理任务上的表现进行了全面评估,涉及了PaLM-62B、PaLM-540B和GPT-3三种大型语言模型。实验的目的在于验证COSP在零样本学习环境下提升LLMs推理能力的有效性。结果显示,在没有任何真实标签指导的情况下,COSP通过自适应选择和构建示例集,显著提高了模型的推理准确率,平均提升幅度达到了10-15%。这一改进在统计上具有显著性,证明了COSP方法在缺乏明确示例和标签时,依然能够有效地引导LLMs进行逻辑推理。

特别值得一提的是,COSP在多数任务上的表现不仅超越了传统的零样本基线,而且达到了与少数样本学习方法相当的水平。这一发现表明,COSP提供的自适应提示对于LLMs来说是一种有效的推理引导手段,能够在没有额外标注数据的情况下,复现类似少数样本学习的性能提升。此外,COSP的方法还显示出了良好的通用性和适应性,这意味着它可以被广泛应用于多种不同的LLMs和任务类型中。

尽管COSP在实验中取得了令人鼓舞的结果,但论文也指出了该方法的一些局限性。例如,COSP依赖于模型的自一致性来预测准确性,这可能在某些任务上不总是有效的。此外,当面对极端困难的任务时,COSP可能无法提供显著的性能改进。尽管如此,COSP仍然为零样本推理任务提供了一个有前景的解决方案,并且它的设计理念为未来LLMs的应用和进一步的研究开辟了新的可能性。

论文链接:http://arxiv.org/pdf/2305.14106

相关推荐
沃达德软件6 小时前
智能识别车辆驾驶人特征
人工智能·目标检测·计算机视觉·目标跟踪·视觉检测
金融小师妹6 小时前
多因子量化模型预警:美元强势因子压制金价失守4000关口,ADP数据能否重构黄金趋势?
人工智能·深度学习·1024程序员节
BJ_Bonree6 小时前
圆桌论坛精华实录 | AI是重构运维逻辑的颠覆性革命?博睿数据与行业大咖亲授“AI+可观测性”的破局之道
运维·人工智能·重构
终端域名6 小时前
从 Grok 4 多智能体协同到 RAG 范式革命:2025 年 AI 工作流的技术重构生成
人工智能·重构
Dfreedom.7 小时前
卷积神经网络(CNN)全面解析
人工智能·神经网络·cnn·卷积神经网络
zl_vslam7 小时前
SLAM中的非线性优-3D图优化之轴角在Opencv-PNP中的应用(一)
前端·人工智能·算法·计算机视觉·slam se2 非线性优化
koo3647 小时前
李宏毅机器学习笔记43
人工智能·笔记·机器学习
lzjava20248 小时前
Spring AI使用知识库增强对话功能
人工智能·python·spring
Francek Chen8 小时前
【自然语言处理】预训练05:全局向量的词嵌入(GloVe)
人工智能·pytorch·深度学习·自然语言处理·glove
这张生成的图像能检测吗8 小时前
(论文速读)LyT-Net:基于YUV变压器的轻量级微光图像增强网络
图像处理·人工智能·计算机视觉·低照度