【论文阅读-思维链的构造方法02】4.1.2 Automatic Construction-02

提示1:本篇博客中涉及4篇相关论文,预计阅读时间10分钟+,望各位友友耐心阅读~
提示2:本篇所有涉及的论文已打包发布,不需要任何积分即可下载,指路 --> 论文集下载地址

大模型技术-思维链CoT

  1. 思维链综述
  2. 思维链的构造方法01-Manual Prompting
  3. 论文阅读-思维链的构造方法02-Automatic Construction-01

文章目录

  • 大模型技术-思维链CoT
  • 一、涉及论文
  • [二、Better Zero-Shot Reasoning with Self-Adaptive Prompting](#二、Better Zero-Shot Reasoning with Self-Adaptive Prompting)
    • [2.1 提出问题](#2.1 提出问题)
    • [2.2 解决问题](#2.2 解决问题)
    • [2.3 结果及展望](#2.3 结果及展望)
  • [三、Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic](#三、Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic)
    • [3.1 提出问题](#3.1 提出问题)
    • [3.2 解决问题](#3.2 解决问题)
    • [3.3 结果及展望](#3.3 结果及展望)
  • [四、Agent Instructs Large Language Models to be General Zero-Shot Reasoners](#四、Agent Instructs Large Language Models to be General Zero-Shot Reasoners)
    • [4.1 提出问题](#4.1 提出问题)
    • [4.2 解决问题](#4.2 解决问题)
    • [4.3 结果及展望](#4.3 结果及展望)
  • [五、PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization](#五、PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization)
    • [5.1 提出问题](#5.1 提出问题)
    • [5.2 解决问题](#5.2 解决问题)
    • [5.3 结果及展望](#5.3 结果及展望)
  • 总结

一、涉及论文


二、Better Zero-Shot Reasoning with Self-Adaptive Prompting

2.1 提出问题

虽然 零样本链式思维(Zero-shot Chain of Thought, CoT) 方法在一定程度上提升了LLMs的推理能力,但是该方法仍面临如下挑战:
   ① 手工提示的成本高昂: 少样本 CoT 需要精心设计的示例,但这种人工设计难以扩展至多个任务场景。
   ② 零样本 CoT 性能不足: 虽然任务通用,但模型在没有明确指导的情况下经常产生不准确或冗余的推理。
   ③ 少样本 CoT示例要求高: fewshot CoT性能已被证明对演示的选择很敏感,因此提高性能需要大量的反复试验和/或特定的相关专业知识,对于人力及专业性有较大的挑战。

2.2 解决问题

为了解决上述问题,作者提出了基于一致性的自适应提示 (COSP,见下图),该方法通过自动选择和构造演示样例,无需人工设计,提升零样本推理的效果。方法主要分为如下两步:
   ① 生成演示池: 使用零样本 CoT 生成候选演示,并计算每个问题的多种推理路径和答案;通过一致性评分(例如多路径输出的一致性)筛选出更有可能正确的演示;受自洽性启发的指标Wang et al, 2022a
   ② 优化演示选择: 通过考虑一致性、多样性和冗余性,优化挑选演示的评分函数,确保所选演示既多样又高质量;将筛选出的演示添加到测试问题中,形成上下文提示,并再次调用模型进行推理。
   此外,提出了 COSP+ 方法,根据问题的难度自适应分配更多的演示以进一步提升性能。

2.3 结果及展望

  • 实验结果:
      ① COSP 在多个数据集(包括算术推理、多选常识问答等)中表现优异,平均准确率相比零样本 CoT 提升 10%-15%,并在许多任务中超越了少样本 CoT。对于小规模模型(如 PaLM-62B 和 GPT-3),COSP 明显缩小了与大规模模型(如 PaLM-540B)的性能差距。
      ② COSP 方法能够有效规避因选择错误演示导致的性能下降问题,相比现有自动方法(如 Auto-CoT),在更具挑战性的任务上表现更稳定。
  • 未来研究方向:
    • 扩展任务类型:探索将 COSP 应用于更广泛的 NLP 任务,如翻译和对话生成。
    • 改进评估指标:进一步优化一致性和多样性评分函数。
    • 模型联合优化:结合多个语言模型,探索协同推理的潜力。

三、Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic

3.1 提出问题

大型语言模型(LLMs)在零样本链式思维(Zero-shot Chain-of-Thought, CoT)推理中逻辑推理能力不足,容易出现以下问题:
   ① 推理路径不连贯: LLMs 生成的推理过程可能跳过逻辑步骤或包含错误。
   ② 错误传播: 中间推理步骤的错误会逐步影响最终答案的准确性。
   ③ 缺乏逻辑约束: 模型推理缺乏逻辑规则的指导,容易出现错误结论。

3.2 解决问题

受逻辑推理过程的启发,作者提出了 LoT(Logical Thoughts)提示框架,是一种全自动推理范式,旨在进一步自我提升 LLM 的零样本推理能力。它不仅可以让 LLM 一步步思考,还可以按照归谬法的指导一步步验证,并在必要时修改推理链以保证推理的合理性,如下图所示:

  LoT的核心思想如下:
   ① 基于逻辑的验证与修正: 引入 归谬法(Reductio ad Absurdum),验证每一步推理是否与前提一致;发现矛盾时,对错误推理步骤进行修正。
   ② 后验解释与修订: 对推理链中每个步骤生成正反两个解释(Post-hoc Explanations);使用逻辑验证选择合理的解释,并通过修订改进推理链。
   ③ 自适应推理链生长: 根据逻辑验证结果动态扩展或修正推理链,确保推理的完整性和一致性。

3.3 结果及展望

  • 实验结果:
      LoT 方法在多个领域的推理任务(如数学推理、因果推理、常识问答等)中得到了验证,如下图所示。图中显示了使用不同 LLM 未使用(✗)和使用(✓)LoT 增强的 CoT(Kojima et al,2022)的百分比差异(绿色表示正,红色表示负)。结果显示:CoT 通常在通过 LoT 增强时获得更好的性能,较大的模型(例如 GPT-4)表现出强大而稳健的自我校正能力。
  • 未来研究方向:
    • 逻辑规则扩展:探索更多逻辑原则(如归纳法、演绎法)的应用。
    • 跨任务通用性:研究 LoT 方法在多任务和多语言环境中的适用性。
    • 与强化学习结合:通过 AI 自反馈(RLAIF)优化推理质量。

四、Agent Instructs Large Language Models to be General Zero-Shot Reasoners

4.1 提出问题

如何提升大型语言模型(LLMs)在零样本场景下的推理能力,尤其是面对多样化任务时的表现。现有方法主要面临以下问题:
   ① 缺乏任务适应性: 零样本提示通常使用固定提示模板,难以适配不同任务的具体需求。
   ② 低效的人工设计: 少样本提示依赖人工设计示例,耗费大量人力且难以推广。
   ③ 推理表现有限: 现有零样本链式思维(Zero-shot CoT)方法无法充分挖掘模型潜力,在复杂任务上效果不理想。

4.2 解决问题

作者提出了Zero-shot AgentInstruct 的方法,通过构建自动化的智能代理生成任务特定的指令,改进零样本推理性能。其核心解决方案包括:
   ① 指令生成: 使用一个大型语言模型(如 GPT-4)作为智能代理,为每个任务生成一次性、高质量的任务指令;指令内容基于任务的语义特点,包括任务目标、输入特性和输出要求。
   ② 链式思维融合: 将生成的任务特定指令与链式思维提示相结合,使模型推理过程更符合任务需求;替代传统的固定提示(如"Let's think step by step")为动态指令提示。
   ③ 知识蒸馏: 利用更强大的模型(如 GPT-4)生成任务指令,将其知识传递给较小规模的模型(如 GPT-3.5 Turbo)。

4.3 结果及展望

  • 实验结果: 该方法在 29 个基准数据集(包括生成、分类和推理任务)中验证了方法的有效性,结果如下:
       ① Zero-shot AgentInstruct 在 20 个数据集上达到当前最佳零样本性能,平均比标准零样本方法提高 17.8%,比零样本 CoT 提升 6.5%;在推理任务中表现尤为突出,准确率平均提升 10.5%,在 12 个推理任务中的 10 个任务上取得最佳结果。
       ② 方法适用于多个模型(如 Vicuna-13b、Llama-2-70b-chat 和 GPT-3.5 Turbo),在各模型上的表现均显著提升;特别是,Llama-2-70b-chat 配合 Zero-shot AgentInstruct 的表现超越标准 GPT-3.5 Turbo 平均 10.2%。
       ③ 每个数据集的指令生成只需运行一次代理,大幅降低推理成本。
  • 未来研究方向:
    • 自适应指令生成:探索无需预先定义任务信息的自动指令生成技术。
    • 模型性能增强:结合强化学习进一步优化任务指令的生成和执行。
    • 跨语言和跨领域推广:验证方法在多语言任务和跨领域任务中的通用性。

五、PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization

5.1 提出问题

Prompt engineering 是优化大型语言模型(LLMs)性能的关键。然而,目前生成高质量任务特定的提示仍然严重依赖专家知识,存在以下问题:
   ① 自动化程度低: 现有方法难以生成与专家手工设计相当的高质量提示。
   ② 探索不足: 现有优化方法在提示空间中的搜索效率低,容易陷入局部最优,难以探索复杂的专家级提示空间。
   ③ 缺乏领域知识整合: 大多数提示优化方法无法有效利用深层次的领域知识,导致提示在任务表现上有局限性。

5.2 解决问题

本文提出了 PromptAgent,一种基于策略规划的新型提示优化框架,其关键特点包括:
   ① 将提示优化视为战略规划问题: 采用蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)作为核心算法,系统地探索专家级提示空间;通过试错和自反思生成改进的提示,模拟专家优化提示的过程。
   ② 错误反馈驱动优化: 基于模型的错误输出生成改进提示的反馈,结合任务需求动态调整提示内容;利用模型的自反思能力,引导提示逐步优化并整合领域知识。
   ③ 结构化提示生成: 在提示中添加多维指导信息(如任务描述、术语解释、解决策略、异常处理等),使其更接近专家设计的细致提示。

5.3 结果及展望

  • 实验结果:
      在 12 个任务(包含 BIG-Bench Hard、医疗任务和通用 NLP 任务)上进行测试,PromptAgent 的性能均优于现有方法(如人类提示、链式思维提示和自动提示优化基线)。平均准确率相较于最新基线提升 9%-16%,在特定任务(如几何推理和生物医学实体识别)中,性能提升幅度高达 20%。
  • 未来研究方向:
    • 提示压缩:在保持提示性能的前提下研究如何简化提示的复杂性,减少推理成本。
    • 联合优化:探索与其他优化策略(如强化学习)的结合,进一步提升提示性能。
    • 长期规划能力:扩展 PromptAgent 的规划能力以适应更复杂的推理和决策任务。

总结

以上就是本篇博客的全部内容了,具体的论文细节希望大家去阅读原文,关于有代码的论文,后期博主也会去进行尝试,有兴趣的朋友可以一直持续关注,感谢各位的支持!!!

相关推荐
Loving_enjoy3 分钟前
解锁人工智能的核心:人工神经网络全面解析
人工智能·神经网络
程序员非鱼1 小时前
深度学习中常见的激活函数详解
人工智能·python·深度学习·神经网络·机器学习·激活函数
蒙娜丽宁2 小时前
【人工智能】自然语言生成的前沿探索:利用GPT-2和BERT实现自动文本生成与完形填空
人工智能·gpt·bert
早安&早安2 小时前
深入了解 NLTK:Python 的自然语言处理工具
人工智能·python·深度学习·自然语言处理
繁华落尽,寻一世真情2 小时前
大语言模型预训练、微调、RLHF
人工智能·语言模型·自然语言处理
赵大仁2 小时前
大语言模型的分层架构:高效建模的全新探索
人工智能·深度学习·神经网络·机器学习·自然语言处理·数据挖掘·数据分析
Noos_2 小时前
如何训练大型语言模型?
人工智能·语言模型·自然语言处理
早安&早安2 小时前
什么是NLP语言:一文详解
人工智能·自然语言处理
早安&早安2 小时前
NLP 基础理论和工具使用
人工智能·深度学习·自然语言处理
东临碣石822 小时前
如何通过腾讯云平台执行SFT微调大语言模型
人工智能·语言模型·自然语言处理