AUTOACT论文翻译

  1. "有限理性"原则(Mintrom, 2015)------即清晰的社会分工与明确的个体任务可以弥补个体在信息处理与利用能力上的局限。这个思想是其他学科的知识吗???

AUTOACT:一种通过自我规划从零开始进行问答任务的自动智能体学习方法

论文题目:AUTOACT: Automatic Agent Learning from Scratch for QA via Self-Planning

发表会议:ACL 2024(第62届国际计算语言学协会年会,ACL 2024,Long Papers)

发表时间:2024年8月11-16日

团队:浙江大学、蚂蚁集团知识图谱联合实验室、AIWaves Inc.、阿里巴巴集团

摘要

语言智能体通过结合外部工具进行规划,在各种复杂问答任务中取得了显著性能。尽管该领域不断探索,现有语言智能体系统仍面临数据依赖成本高、结果难以复现,以及迫使单一模型承担多种功能等挑战。为此,我们提出AUTOACT,一个无需依赖大规模标注数据或闭源模型(如GPT-4)合成规划轨迹的自动智能体学习框架。在仅有少量数据和工具库的情况下,AUTOACT首先自动合成规划轨迹,无需人类或强闭源模型的参与。随后,AUTOACT基于目标任务信息和合成轨迹,采用分工策略自动分化,生成一个子智能体群体以协作完成任务。我们在不同大语言模型上进行了全面实验,结果表明AUTOACT性能优于或媲美多种强基线方法。进一步分析验证了分工策略的有效性,且AUTOACT生成的轨迹质量普遍优于现有方法。

引言

语言智能体(Wang et al., 2023a; Xi et al., 2023; Guo et al., 2024)通过利用大语言模型(LLMs)强大的推理能力(Qiao et al., 2023b; Zhang et al., 2023)与可执行工具进行交互,已成为解决复杂问答任务的人工智能系统中的关键组成部分。赋予大语言模型这种交互能力的过程被称为"智能体学习",其中规划(Huang et al., 2024b)起着核心作用,负责将复杂问题分解为更简单的子问题(Wei et al., 2022; Yao et al., 2023; Team, 2023; Qian et al., 2023)、调用外部工具(Shen et al., 2023; Lu et al., 2023; Qin et al., 2023)、反思过往错误(Shinn et al., 2023; Madaan et al., 2023),并整合多源信息以得出最终答案。

已有大量研究(Li et al., 2023; Shen et al., 2023; Hong et al., 2023; Talebirad and Nadiri, 2023; Chen et al., 2023d,b)直接通过提示闭源的大语言模型来完成特定任务的规划。尽管这些方法具有便利性和灵活性,但闭源大语言模型仍存在诸多难以解决的问题:其使用成本高昂,且其黑箱特性使得结果难以复现。因此,近期一些研究转向通过微调开源模型来赋予其规划能力(Chen et al., 2023a; Zeng et al., 2023; Yin et al., 2023)。

然而,尽管现有的微调方法取得了一定成果,它们仍存在明显局限。一方面,训练开源模型需要大量标注的问答数据,且仍依赖闭源模型来合成规划轨迹。但在许多现实场景中(如私人助理或涉及敏感信息的企业应用),这些条件往往难以满足。另一方面,从智能体框架的角度来看,微调方法通常迫使单个语言智能体学习所有规划能力,这对模型能力提出了极高要求,违背了西蒙(Simon)提出的"有限理性"原则(Mintrom, 2015)------即清晰的社会分工与明确的个体任务可以弥补个体在信息处理与利用能力上的局限

为此,我们提出AUTOACT ,一个用于问答任务的自动智能体学习框架。该框架不依赖大规模标注数据或闭源模型合成的规划轨迹,同时通过明确的任务分工来减轻单个智能体的负担(见图1)。在仅有用户提供少量示例数据的情况下,AUTOACT首先通过一个元智能体(META-AGENT)利用自指导(self-instruct)机制扩展任务数据库。随后,借助预设的工具库,元智能体可在无需人类或强闭源模型辅助的情况下,自动合成规划轨迹。最后,我们提出一种分工策略,模拟细胞分化过程:元智能体如同干细胞(Colman, 2008),根据合成轨迹(基因)分化为三个功能不同的子智能体,分别负责任务分解、工具调用和自我反思。该分化过程本质上是一个基于自合成轨迹的参数高效微调过程,资源消耗低。我们在表3中列出了AUTOACT与已有方法的区别。

在复杂问答任务上的实验表明,基于不同大语言模型的AUTOACT在性能上优于或媲美多种强基线方法。进一步的实证分析验证了我们所提出的分工策略的有效性。

相关推荐
CoderJia程序员甲15 小时前
GitHub 热榜项目 - 日榜(2026-04-09)
人工智能·ai·大模型·github·ai教程
前端摸鱼匠17 小时前
【AI大模型春招面试题18】 L1、L2正则化、Dropout、早停(Early Stopping)的原理与适用场景?
人工智能·ai·语言模型·面试·大模型
前端摸鱼匠18 小时前
【AI大模型春招面试题17】 过拟合、欠拟合在大模型中的表现与解决策略?
人工智能·ai·语言模型·面试·大模型
魔乐社区18 小时前
从0到1:魔乐社区贡献者丁一超的大模型量化实战指南
人工智能·大模型·量化
CoderJia程序员甲19 小时前
GitHub 热榜项目 - 日榜(2026-04-10)
人工智能·ai·大模型·github·ai教程
AI、少年郎19 小时前
如何用个人电脑快速训练自己的语言模型?MiniMind 全流程实战指南
人工智能·python·神经网络·ai·自然语言处理·大模型·模型训练微调
iiiiii1119 小时前
【论文阅读笔记】ReVal:让大模型强化学习真正支持离策略(off-policy)数据复用
论文阅读·笔记·语言模型·大模型·llm
千桐科技19 小时前
从“找答案”到“解决问题”:qKnow 如何用“预置+迭代”体系打通 AI 落地最后一公里?
大模型·知识图谱·知识库·智能体·智能应用·qknow
guslegend1 天前
第5节:动态切片策略与重叠机制提升RAG召回率
人工智能·大模型·rag
熊猫钓鱼>_>1 天前
从“流程固化“到“意图驱动“:大模型调智能体调Skill架构深度解析
ai·架构·大模型·llm·agent·skill·openclaw