论文 | ART: Automatic multi-step reasoning and tool-use for large language models

摘要:

  • LLM 在进行多步推理和工具使用时存在局限性,例如需要大量标注数据或专门训练。
  • 现有的 CoT 提示和工具使用方法难以扩展到新任务和工具。
  • 本文介绍了 ART 框架,该框架使用冻结的 LLM 自动生成推理步骤,并选择和调用外部工具。
  • ART 在 BigBench 和 MMLU 基准测试中取得了显著的性能提升,并可以接受人类反馈进行改进。

主要内容

  • ART 框架
    • 任务库 (Task Library): 存储了来自不同任务的程序,这些程序展示了如何将任务分解为多个步骤,并使用工具进行计算。
    • 工具库 (Tool Library): 提供了可用的外部工具,例如搜索引擎、代码生成器、代码执行器和知识库查询工具。
    • 自动推理引擎 (Automatic Reasoning Engine): 解析 LLM 生成的程序,并根据程序中的工具调用节点自动调用工具。
    • 人类反馈 (Human Feedback): 用户可以添加新的任务和工具到库中,并通过编辑程序来改进性能,并提供调试工具。
  • ART 的优势
    • 模块化设计: ART 采用模块化设计,每个模块都独立运作,易于扩展和改进。
    • 灵活性和可扩展性: 用户可以轻松地添加新的任务和工具到库中,并定义相应的程序。
    • 可解释性: 生成的程序使用 PeG 语法,具有明确的结构,易于理解。
    • 人类反馈: 用户可以提供调试和改进意见,使 ART 的性能不断提升。

实验结果

  • 在 BigBench 和 MMLU 基准测试中,ART 在未见过的任务上取得了显著的性能提升,甚至超过了人工编写的 CoT 提示。
  • 工具使用在测试任务上平均提高了 12.3 个百分点。
  • 通过人类反馈,可以进一步改进 ART 的性能,使其超过 GPT-3 的最佳结果。

结论

ART 是一个强大的框架,可以显著提高 LLM 在多步推理和工具使用方面的能力。它可以轻松地扩展到新的任务和工具,并通过人类反馈进行改进,为 LLM 的发展和应用开辟了新的可能性。

个人思考

  • ART 框架展示了 LLM 未来的发展方向,即通过结合任务库、工具库和自动推理机制,实现更强大的智能。
  • 人类反馈在改进 LLM 性能方面发挥着重要作用,未来需要探索更有效的反馈机制。
  • LLM 的应用前景广阔,未来需要在更多领域进行探索和实验。
相关推荐
302AI7 分钟前
体验升级而非颠覆,API成本直降75%:DeepSeek-V3.2-Exp评测
人工智能·llm·deepseek
新智元11 分钟前
老黄押宝「美版 DeepSeek」!谷歌天才叛将创业,一夜吸金 20 亿美元
人工智能·openai
新智元13 分钟前
刚刚,全球首个 GB300 巨兽救场!一年烧光 70 亿,OpenAI 内斗 GPU 惨烈
人工智能·openai
小虎鲸0019 分钟前
PyTorch的安装与使用
人工智能·pytorch·python·深度学习
酷柚易汛智推官1 小时前
AI + 区块链开发实战:3 大技术方向 + 5 个落地案例,解锁去中心化网络效能密码
人工智能·去中心化·区块链
2401_841495641 小时前
预训练基础模型简介
gpt·语言模型·自然语言处理·bert·transformer·大语言模型·预训练
星哥说事1 小时前
当AI遇上魔兽争霸3:腾讯混元带我重温青春的3D战场
人工智能
Starriers1 小时前
AI - Java AI - LangChain4J 实战
人工智能·后端
lucky_syq1 小时前
解锁特征工程:机器学习的秘密武器
人工智能·机器学习
铮铭1 小时前
【论文阅读】具身竞技场:面向具身智能的全面、统一、演进式评估平台
论文阅读·人工智能·机器人·世界模型