论文笔记:Large Language Models as Analogical Reasoners

iclr 2024 reviewer打分5558

1 intro

  • 基于CoT prompt的大模型能够更好地解决复杂推理问题
    • 然而传统CoT需要提供相关的例子作为指导,这就增加了人工标注的成本
    • ------>Zero-shot CoT避免了人工标注来引导推理
      • 但是对于一些复杂的任务难以完成推理,例如code generation
  • ------>论文提出一种"归纳学习"的提示方法
    • 首先设计prompt让大模型生成出与当前问题比较相关的问题和答案,以辅助问答提出的问题

2 preliminary

  • 给定一个问题x

    • 首先通过prompt将问题映射到文本输入ϕ ( x )

      |---------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
      | zero-shot | ϕ ( x ) 就是x |
      | zero-shot CoT | ϕ ( x ) 是[x] think step by step |
      | few-shot CoT | ϕ ( x ) 是[x]和一些带label的例子 ,即 [x1][r1][a1].....[xK][rK][aK][x] |

    • 任务目标是调用LLM解决这个问题【生成目标答案y】

      • 生成的目标答案可以包含reasoning path r【推理过程】和答案a

3 方法

3.1 Self-Generated Exemplars

  • 让大模型从在训练阶段掌握的problem-solving knowledge中生成出相关的问题和解决方法

3.1.1 prompt举例

3.1.2 大模型给的答案

大模型先生成出3个相关的且互不相同的problem,并给出相应的解决方案,然后再对目标问题进行解决。

3.1.3 self-generated instruction的三个核心部分

  • 明确地让大模型生成相关且不同的样例。
    • 因为大模型会偏向于重复地生成一些经典的问题,导致误导
  • single-pass VS independent exemplar generation
    • 所谓single-pass,就是直接prompt,让模型生成3个样例
    • independent exemplar generation:让模型生成若干样例,然后采样3个样例,之后再重新设计prompt让大模型进行生成
    • ------>通过实验,发现single-pass效果最好
  • 生成的样例数量:3~5最佳

3.2 Self-generated Knowledge + Exemplars

  • 对于像代码生成等复杂的任务,3.1这样的案例生成方法不一定能过让模型很好地解决此类问题
    • ------>论文提出一种high-level generation方法。通过设计如下指令来实现:
  • 【让模型先思考选择什么algorithm,以及algorithm对应的tutorial】

有点类似于:论文笔记:Take a Step Back:Evoking Reasoning via Abstraction in Large Language Models-CSDN博客的后退一步?

3.2.1 prompt 案例

3.2.2 大模型给的答案

4 实验

4.1 实验任务

  • 数学问题:GSM8K、MATH等;
  • 代码生成:动态规划、图算法等复杂的编程题

4.2 效果比较

4.2.1 数学问题

4.2.2 代码生成

4.3 few-shot example 数量的异同

相关推荐
灵机一物1 小时前
灵机一物AI原生电商小程序、PC端(已上线)-【技术深度解析】Bun 6 天 AI 重写 96 万行代码:从 Zig 迁移 Rust 全流程与行业影响
开发语言·人工智能·rust
wuxinyan1231 小时前
工业级大模型学习之路014:RAG零基础入门教程(第十篇):系统性能与资源优化
人工智能·学习·rag
STLearner1 小时前
CVPR 2026 | 时空时序论文总结(天气预报,交通模拟,域自适应等)
论文阅读·人工智能·深度学习·神经网络·机器学习·计算机视觉·数据挖掘
小程故事多_801 小时前
AI重构DevOps,智能增强而非替代,人始终是最终决策者
人工智能·重构·devops
大鸣王潮20241 小时前
flow_grpo vs Flow-Factory GRPO 实现对比
人工智能·深度学习·神经网络
石逸凡1 小时前
新时代的信息茧房
大数据·人工智能
Jay-r2 小时前
积极的断舍离:化解时代性焦虑的生活哲学
人工智能·科技·生活·感悟·哲学
闵孚龙2 小时前
Claude Code 沙箱系统全解析:Seatbelt、Bubblewrap、AI Agent 安全隔离、权限治理与企业级防护
人工智能·安全
:mnong2 小时前
MIT OpenCourseWare 25周年庆典与学习者故事
人工智能·mitocw
带娃的IT创业者2 小时前
Claude Code 源码泄露事件深度剖析:当 AI 编程工具不再“透明”
人工智能·ai编程·ai安全·源码泄露·claude code·工程伦理