通过自适应提示提升大语言模型的零样本推理能力

随着大模型(LLMs)的快速发展,它们在自然语言处理(NLP)任务上取得了前所未有的成就。特别是,LLMs展现出了强大的推理和规划能力,这得益于它们的少样本和零样本学习能力。然而,现有的方法仍存在一些限制,例如在少样本设置中,性能对示例选择非常敏感,而在零样本设置中,由于缺乏对LLMs的指导,性能受限。

为了解决这些限制,论文提出了COSP,这是一种不需要手工示例或真实标签的算法。作为一种新颖的提示设计方法,它旨在提升大模型(LLMs)在零样本(Zero-Shot)推理任务中的表现。该方法不依赖于手工制作的响应或真实标签,而是通过利用LLM自身生成的输出来构建上下文示例,从而引导模型进行更准确的推理。COSP包含两个主要阶段:

第一阶段:构建生成响应池和示例选择器

在这一阶段,COSP首先通过零样本链式思考(Zero-shot CoT)对所有测试问题进行查询,收集LLM生成的响应。这一过程涉及以下步骤:

  1. 候选池构建:对于每个测试问题,LLM被查询多次以生成多个推理路径和可能的答案。这些路径和答案构成了候选池,其中的每个元素都是一个潜在的示例。

  2. 一致性驱动的示例选择:从候选池中选择一组示例。这一选择过程非常关键,因为:

    • 需要从大量候选项中选择少量(通常小于等于10)示例。
    • 候选池本身可能包含错误,因为它们是在没有真实标签的情况下生成的。

    为了解决这些问题,COSP使用自一致性来精简候选池,并在没有真实标签的情况下选择示例。具体来说,对于每个测试问题,COSP首先计算所有预测答案的多数投票预测,并保留导致多数投票预测的推理路径,同时剪枝掉其他可能错误的推理-答案对。

  3. 结果熵计算:COSP使用结果熵作为自一致性的度量,以识别适合的问答对。结果熵是一个受自一致性启发的度量,用于捕捉LLM对其预测的不确定性。

  4. 惩罚重复性 :COSP还引入了一种量化措施来惩罚重复性,因为重复的示例往往会导致性能下降。

第二阶段:使用生成的上下文示例进行查询

在第二阶段,COSP将选定的示例作为上下文信息与测试问题结合,并再次查询LLM。这一阶段的步骤如下:

  1. 上下文示例的拼接:将选定的示例作为上下文信息与测试问题拼接,形成新的查询。

  2. LLM的再次查询:使用新的查询对LLM进行查询,以生成第二轮的推理路径和答案。

  3. 最终预测的形成:通过对第一阶段和第二阶段生成的所有答案进行多数投票,形成每个问题的最终预测。

COSP方法的一个关键创新之处在于它如何从LLM自身的输出中选择和构建示例集。通过精心设计的评分函数,COSP在考虑一致性、多样性和重复性的基础上,选择最有助于提升LLM推理能力的示例。此外,COSP还可以适应性地调整每个问题所使用的示例数量,以及在少数样本设置中利用标记样本来增强性能。

实验结果

在实验部分,COSP方法在多种算术和逻辑推理任务上的表现进行了全面评估,涉及了PaLM-62B、PaLM-540B和GPT-3三种大型语言模型。实验的目的在于验证COSP在零样本学习环境下提升LLMs推理能力的有效性。结果显示,在没有任何真实标签指导的情况下,COSP通过自适应选择和构建示例集,显著提高了模型的推理准确率,平均提升幅度达到了10-15%。这一改进在统计上具有显著性,证明了COSP方法在缺乏明确示例和标签时,依然能够有效地引导LLMs进行逻辑推理。

特别值得一提的是,COSP在多数任务上的表现不仅超越了传统的零样本基线,而且达到了与少数样本学习方法相当的水平。这一发现表明,COSP提供的自适应提示对于LLMs来说是一种有效的推理引导手段,能够在没有额外标注数据的情况下,复现类似少数样本学习的性能提升。此外,COSP的方法还显示出了良好的通用性和适应性,这意味着它可以被广泛应用于多种不同的LLMs和任务类型中。

尽管COSP在实验中取得了令人鼓舞的结果,但论文也指出了该方法的一些局限性。例如,COSP依赖于模型的自一致性来预测准确性,这可能在某些任务上不总是有效的。此外,当面对极端困难的任务时,COSP可能无法提供显著的性能改进。尽管如此,COSP仍然为零样本推理任务提供了一个有前景的解决方案,并且它的设计理念为未来LLMs的应用和进一步的研究开辟了新的可能性。

论文链接:http://arxiv.org/pdf/2305.14106

相关推荐
AI浩22 分钟前
【面试总结】FFN(前馈神经网络)在Transformer模型中先升维再降维的原因
人工智能·深度学习·计算机视觉·transformer
可为测控31 分钟前
图像处理基础(4):高斯滤波器详解
人工智能·算法·计算机视觉
一水鉴天1 小时前
为AI聊天工具添加一个知识系统 之63 详细设计 之4:AI操作系统 之2 智能合约
开发语言·人工智能·python
倔强的石头1061 小时前
解锁辅助驾驶新境界:基于昇腾 AI 异构计算架构 CANN 的应用探秘
人工智能·架构
佛州小李哥2 小时前
Agent群舞,在亚马逊云科技搭建数字营销多代理(Multi-Agent)(下篇)
人工智能·科技·ai·语言模型·云计算·aws·亚马逊云科技
说私域2 小时前
社群裂变+2+1链动新纪元:S2B2C小程序如何重塑企业客户管理版图?
大数据·人工智能·小程序·开源
程序猿阿伟3 小时前
《探秘鸿蒙Next:如何保障AI模型轻量化后多设备协同功能一致》
人工智能·华为·harmonyos
2401_897579653 小时前
AI赋能Flutter开发:ScriptEcho助你高效构建跨端应用
前端·人工智能·flutter
CM莫问3 小时前
python实战(十五)——中文手写体数字图像CNN分类
人工智能·python·深度学习·算法·cnn·图像分类·手写体识别
程序猿阿伟3 小时前
《探秘鸿蒙Next:人工智能助力元宇宙高效渲染新征程》
人工智能·华为·harmonyos