通过自适应提示提升大语言模型的零样本推理能力

随着大模型(LLMs)的快速发展,它们在自然语言处理(NLP)任务上取得了前所未有的成就。特别是,LLMs展现出了强大的推理和规划能力,这得益于它们的少样本和零样本学习能力。然而,现有的方法仍存在一些限制,例如在少样本设置中,性能对示例选择非常敏感,而在零样本设置中,由于缺乏对LLMs的指导,性能受限。

为了解决这些限制,论文提出了COSP,这是一种不需要手工示例或真实标签的算法。作为一种新颖的提示设计方法,它旨在提升大模型(LLMs)在零样本(Zero-Shot)推理任务中的表现。该方法不依赖于手工制作的响应或真实标签,而是通过利用LLM自身生成的输出来构建上下文示例,从而引导模型进行更准确的推理。COSP包含两个主要阶段:

第一阶段:构建生成响应池和示例选择器

在这一阶段,COSP首先通过零样本链式思考(Zero-shot CoT)对所有测试问题进行查询,收集LLM生成的响应。这一过程涉及以下步骤:

  1. 候选池构建:对于每个测试问题,LLM被查询多次以生成多个推理路径和可能的答案。这些路径和答案构成了候选池,其中的每个元素都是一个潜在的示例。

  2. 一致性驱动的示例选择:从候选池中选择一组示例。这一选择过程非常关键,因为:

    • 需要从大量候选项中选择少量(通常小于等于10)示例。
    • 候选池本身可能包含错误,因为它们是在没有真实标签的情况下生成的。

    为了解决这些问题,COSP使用自一致性来精简候选池,并在没有真实标签的情况下选择示例。具体来说,对于每个测试问题,COSP首先计算所有预测答案的多数投票预测,并保留导致多数投票预测的推理路径,同时剪枝掉其他可能错误的推理-答案对。

  3. 结果熵计算:COSP使用结果熵作为自一致性的度量,以识别适合的问答对。结果熵是一个受自一致性启发的度量,用于捕捉LLM对其预测的不确定性。

  4. 惩罚重复性 :COSP还引入了一种量化措施来惩罚重复性,因为重复的示例往往会导致性能下降。

第二阶段:使用生成的上下文示例进行查询

在第二阶段,COSP将选定的示例作为上下文信息与测试问题结合,并再次查询LLM。这一阶段的步骤如下:

  1. 上下文示例的拼接:将选定的示例作为上下文信息与测试问题拼接,形成新的查询。

  2. LLM的再次查询:使用新的查询对LLM进行查询,以生成第二轮的推理路径和答案。

  3. 最终预测的形成:通过对第一阶段和第二阶段生成的所有答案进行多数投票,形成每个问题的最终预测。

COSP方法的一个关键创新之处在于它如何从LLM自身的输出中选择和构建示例集。通过精心设计的评分函数,COSP在考虑一致性、多样性和重复性的基础上,选择最有助于提升LLM推理能力的示例。此外,COSP还可以适应性地调整每个问题所使用的示例数量,以及在少数样本设置中利用标记样本来增强性能。

实验结果

在实验部分,COSP方法在多种算术和逻辑推理任务上的表现进行了全面评估,涉及了PaLM-62B、PaLM-540B和GPT-3三种大型语言模型。实验的目的在于验证COSP在零样本学习环境下提升LLMs推理能力的有效性。结果显示,在没有任何真实标签指导的情况下,COSP通过自适应选择和构建示例集,显著提高了模型的推理准确率,平均提升幅度达到了10-15%。这一改进在统计上具有显著性,证明了COSP方法在缺乏明确示例和标签时,依然能够有效地引导LLMs进行逻辑推理。

特别值得一提的是,COSP在多数任务上的表现不仅超越了传统的零样本基线,而且达到了与少数样本学习方法相当的水平。这一发现表明,COSP提供的自适应提示对于LLMs来说是一种有效的推理引导手段,能够在没有额外标注数据的情况下,复现类似少数样本学习的性能提升。此外,COSP的方法还显示出了良好的通用性和适应性,这意味着它可以被广泛应用于多种不同的LLMs和任务类型中。

尽管COSP在实验中取得了令人鼓舞的结果,但论文也指出了该方法的一些局限性。例如,COSP依赖于模型的自一致性来预测准确性,这可能在某些任务上不总是有效的。此外,当面对极端困难的任务时,COSP可能无法提供显著的性能改进。尽管如此,COSP仍然为零样本推理任务提供了一个有前景的解决方案,并且它的设计理念为未来LLMs的应用和进一步的研究开辟了新的可能性。

论文链接:http://arxiv.org/pdf/2305.14106

相关推荐
飞起来fly呀14 分钟前
AI驱动电商新未来:提升销售效率与用户体验的创新实践
人工智能·ai
李歘歘41 分钟前
Stable Diffusion经典应用场景
人工智能·深度学习·计算机视觉
饭碗、碗碗香44 分钟前
OpenCV笔记:图像去噪对比
人工智能·笔记·opencv·计算机视觉
段传涛1 小时前
AI Prompt Engineering
人工智能·深度学习·prompt
西电研梦1 小时前
考研倒计时30天丨和西电一起向前!再向前!
人工智能·考研·1024程序员节·西电·西安电子科技大学
催催121 小时前
手机领夹麦克风哪个牌子好,哪种领夹麦性价比高,热门麦克风推荐
网络·人工智能·经验分享·其他·智能手机
孤华暗香1 小时前
吴恩达《提示词工程》(Prompt Engineering for Developers)课程详细笔记
人工智能·笔记·prompt
rommel rain1 小时前
SpecInfer论文阅读
人工智能·语言模型·transformer
腾讯云开发者1 小时前
AI 驱动的创新与变革 | 第十届中国行业互联网大会暨腾讯云 TVP 行业大使三周年庆典零售专场精彩回顾
人工智能
Chef_Chen2 小时前
从0开始学习机器学习--Day32--推荐系统作业
人工智能·学习·机器学习