A survey on large language model based autonomous agents —— 论文精读

论文标题：A survey on large language model based autonomous agents

机构：Gaoling School of Artificial Intelligence, Renmin University of China（中国人民大学高瓴人工智能学院）
前置知识：大型语言模型（LLM）基础、Prompt Engineering、强化学习基本概念

TL;DR

本文是第一篇系统性地从构建（Construction）、应用（Application）、评估（Evaluation） 三个维度综述 LLM 自主智能体领域的论文。
提出了一个统一的智能体架构框架，包含画像（Profiling）、记忆（Memory）、规划（Planning）、行动（Action） 四个模块，几乎可以涵盖所有已有工作。
将应用场景划分为社会科学、自然科学、工程三大领域，覆盖从社会模拟到机器人控制的广泛范围。
系统梳理了主观与客观两大评估范式，并指出了角色扮演、泛化对齐、幻觉、知识边界等六大核心挑战。

1. 论文概述

自主智能体（Autonomous Agent）长期以来被视为实现通用人工智能（AGI）的一条有希望的道路。传统方法通常依赖强化学习在受限环境中训练智能体，但这与人类的开放域学习过程相去甚远。

近年来，大型语言模型（LLMs）通过大规模网络语料的训练，展现出了人类级智能的潜力。这催生了一个新兴研究方向：以 LLM 为核心控制器来构建自主智能体，使其能够进行自主规划和行动。与传统强化学习智能体相比，LLM 智能体拥有更全面的世界知识，并提供了更灵活、可解释的自然语言交互界面。

本文的核心贡献在于，首次从整体视角出发，对 LLM 自主智能体的构建方法、应用场景和评估策略进行了系统性的回顾和梳理，旨在为后来者提供一幅清晰的领域地图。

2. 背景与动机

2.1 为什么需要这篇综述？

在此文发表之前，该领域的研究"各自为战"，不同的智能体模型（如 Generative Agents、Voyager、MetaGPT、ToolFormer 等）被独立提出，缺乏系统性的总结和对比。作者认为，对这个快速发展的领域进行系统梳理，对于全面理解其现状和启发未来研究具有重要意义。

2.2 论文的组织逻辑

本文采用"构建 → 应用 → 评估 → 挑战"的闭环逻辑组织内容：

第 2 章（构建）：提出一个包含画像、记忆、规划、行动四大模块的统一框架，并讨论能力获取的两种策略。
第 3 章（应用）：系统梳理智能体在社会科学、自然科学、工程中的应用。
第 4 章（评估）：从主观评估和客观评估两个维度总结评价方法。
第 5--6 章：相关综述对比与未来挑战。

3. 核心方法：统一智能体架构

这是论文的理论核心。作者将 LLM 自主智能体的架构抽象为四个模块。设计逻辑是：画像模块定义"它是谁"，奠定基础；记忆模块管理"它经历过什么"；规划模块决定"它接下来怎么做"；这三者共同驱动行动模块，决定"它最终做什么"。

3.1 画像模块（Profiling Module）

核心问题：如何为智能体设定合适的角色？

作者总结了三类策略：

策略	做法	优势	局限	典型工作
手工定制	人工编写角色提示词	精准可控	成本高、难以规模化	Generative Agents, MetaGPT
LLM 生成	给定种子角色，让 LLM 自动扩展	效率高、可大规模生成	精度和可控性不足	RecAgent
数据集对齐	将真实世界数据集中的个体映射为角色提示词	真实反映人口统计特征	受限于现有数据，无法创造新角色	Out of One, Many

作者的关键洞察：三种策略可以组合使用。例如，用真实数据刻画当下社会，再手动注入"未来可能出现的角色"，以预测社会演变。

3.2 记忆模块（Memory Module）

核心问题：智能体如何存储和利用历史经验？

3.2.1 记忆结构

单一记忆：仅模拟人类的短期记忆，所有信息直接写入 LLM 的上下文窗口中。实现简单，但受限于 LLM 的上下文容量【4†L8-L12】。
混合记忆：显式分离短期记忆和长期记忆。短期记忆暂存当下的感知（在提示词内），长期记忆依赖外部向量数据库存储（需要时通过检索获取）。突破了上下文限制，支持长程推理和经验积累【4†L17-L26】。

3.2.2 记忆格式

记忆的存储介质分为四类，且可以组合使用：

自然语言：灵活、语义丰富，可读性强（如 Reflexion 的经验反馈）。
嵌入向量：检索效率高（如 ChatDev 将对话历史编码为向量）。
数据库：支持精确 CRUD 操作（如 ChatDB 用 SQL 操作记忆）。
结构化列表：表达信息层级关系清晰（如 GITM 将子目标计划存为树状结构）。

3.2.3 记忆操作

记忆读取 ：作者提炼了一个通用公式，提取某段记忆的概率由三个因素加权决定------新近性（recency）、相关性（relevance）、重要性（importance）【5†L11-L16】。
记忆写入：需解决两个问题：记忆重复（通过归纳替换或计数累加）和记忆溢出（通过显式删除或 FIFO 策略）【5†L24-L30】【6†L1-L4】。
记忆反思：更高阶的能力，让智能体从过去记忆中归纳出高层次的抽象洞察。例如，Generative Agents 让智能体从其最近的记忆流中提炼出类似"Klaus Mueller 专注于他的研究"这样的高级见解【6†L5-L12】。

3.3 规划模块（Planning Module）

核心问题：智能体如何分解任务并规划未来行动？

作者按是否接收外部反馈划分策略：

3.3.1 无反馈规划（开环）

单路径推理：每一步只有一个确定的下一步。代表作：Chain-of-Thought（CoT）、Zero-shot-CoT。极其简单但缺乏纠错能力【6†L18-L22】。
多路径推理：在每一步探索多种可能性并择优。代表作：Tree of Thoughts（ToT）、Graph of Thoughts（GoT）。推理能力更强，但计算成本更高【6†L26-L33】。
外部规划器：将自然语言翻译为形式化语言（如 PDDL），交给成熟的外部规划器求解。如 LLM+P。在精确规划领域性能强大，但通用性差【7†L3-L7】。

3.3.2 有反馈规划（闭环）

这是实现真正自主的关键。智能体根据行动结果修正后续计划，形成"思考-行动-观察-再思考"的闭环。反馈来源有三类【7†L14-L19】：

环境反馈：来自客观世界的信号（如任务是否完成、代码是否报错）。代表作：ReAct、Voyager。
人类反馈：来自人类的自然语言评价。代表作：Inner Monologue。
模型反馈：LLM 自我评估产生的反馈。代表作：Self-Refine、Reflexion。

3.4 行动模块（Action Module）

核心问题：智能体如何将决策输出为具体结果？

行动目标 ：分为完成任务、交流、环境探索三类【8†L5-L10】。
行动生产 ：分为基于记忆的回忆 （直接从经验中找答案）和基于计划的跟随（严格执行预设计划）【8†L15-L24】。
行动空间 ：分为外部工具 （API、数据库、外部模型）和内部知识（LLM 自身的规划、对话、常识能力）【8†L28-L36】【9†L5-L26】。
行动影响 ：可以改变环境、改变自身内部状态、触发新的行动【10†L1-L4】。

4. 应用版图

4.1 社会科学（理解"人"与社会）

心理学：模拟人格实验、心理健康支持（但需警惕有害内容）【13†L2-L7】。
政治学与经济学：用数据集对齐方法模拟选民、分析政治话语、模拟经济行为【14†L1-L4】。
社会模拟：在虚拟小镇中放置多个智能体，涌现社会现象。代表作：Generative Agents、AgentSims、S³【14†L5-L9】。
法学：模拟法官团辅助判案（如 Blind Judgement、ChatLaw）。
研究助理：辅助生成摘要、提取关键词、寻找研究切入点。

4.2 自然科学（探索"自然"的奥秘）

文档与数据管理：高效阅读科研文献，查询化学/材料数据库【14†L12-L15】。
实验助手：自主设计、规划、执行科学实验。代表作：ChemCrow（集成 17 个化学工具）【14†L17-L20】。
自然科学教育：自动求解和讲解大学级数学/物理题。代表作：Math Agents、CodeHelp。

4.3 工程（创造"数字与物理"世界）

软件工程：AI 虚拟开发团队端到端开发软件。代表作：ChatDev、MetaGPT、Self-collaboration【15†L5-L11】。
工业自动化：结合数字孪生系统，实现柔性自适应生产。
机器人与具身智能：让机器人理解自然语言指令并执行物理操作。代表作：SayCan（涵盖 551 种技能）、TidyBot（学习用户整理偏好）【15†L16-L20】。

此外，论文还整理了 LangChain、AutoGPT、AgentVerse、BMTools 等开源库，是快速构建智能体的实用"脚手架"【16†L1-L6】。

5. 评估体系

作者从主观和客观两个维度系统梳理了评估方法。

5.1 主观评估

以人的感受为准绳，适合评估"拟人性"、"智慧程度"等难以量化的指标。

人类标注：人直接打分/排序。例如评估生成内容的无害性、有帮助性【17†L3-L5】。
图灵测试：让人分辨输出来自人还是机器【17†L9-L12】。

新兴趋势：用 LLM 来评估 LLM，如 ChatEval 构建多智能体"陪审团"，通过辩论来评估回复质量【17†L15-L18】。

5.2 客观评估

基于可量化的指标和标准化基准。

评估指标 ：分为任务成功 （成功率、准确率）、人类相似度 （轨迹相似度、对话相似度）、效率（推理速度、成本）三类【17†L21-L31】。
评估协议：真实环境模拟、社会评估、多任务评估、软件测试。
评估基准：AgentBench（通用）、WebArena（网页任务）、ToolBench（工具使用）、SocKET（社会知识）等【17†L33-L38】【18†L6-L14】。

6. 挑战与未来方向

6.1 角色扮演能力

LLM 对罕见角色和需要深度心理建模的角色模拟不足。潜在方向：针对性微调或设计更优的提示词框架。难点在于微调后如何避免"灾难性遗忘"，以及提示词设计空间过大难以优化【19†L3-L12】。

6.2 泛化的人类对齐

核心矛盾 ：服务于个体的 AI 助手需要绝对安全，但用于社会模拟的智能体需要能忠实地再现人类的负面特质（如偏见、暴力倾向），否则模拟就失真了【19†L14-L19】。

6.3 提示词鲁棒性

智能体的提示词是一个多模块交织的复杂框架，对措辞极其敏感，微小的变化可能引发连锁反应【20†L1-L4】。

6.4 幻觉

从 LLM 继承来的根深蒂固的顽疾。方向：将人类矫正反馈直接嵌入人机交互闭环【20†L7-L10】。

6.5 知识边界

LLM 太"聪明"了怎么办？ 在模拟场景中，LLM 的"上帝视角"知识会成为作弊器，导致模拟失真。如何有效限制 LLM 使用其已知但角色"不应知道"的知识，是一个极具研究价值的问题【20†L14-L24】。

6.6 效率

LLM 自回归推理慢，加上智能体每次行动需要多次调用 LLM，导致时间和金钱成本极高，难以满足实时交互需求【20†L26-L29】。

7. 相关综述对比

相关工作	聚焦点
Zhao et al. (2023)	LLM 整体综述（背景、技术、应用）
Yang et al. (2024)	LLM 在各类下游任务中的应用与挑战
Wang et al. (2023)	人类对齐技术（数据收集、模型训练）
Huang & Chang (2023)	LLM 推理能力
Mialon et al. (2023)	增强语言模型（ALMs）
Chang et al. (2023)	LLM 评估方法

本文是第一篇专门聚焦 LLM 自主智能体的综述，覆盖构建、应用和评估全流程【18†L17-L19】。

8. Q&A：关键问题深度讨论

Q1: 记忆模块中的"反思"操作与规划模块中的"有反馈规划"有何本质区别？

记忆反思是面向过去的归纳 ：对已有记忆进行压缩、提炼，生成更高级的抽象知识（如从几条具体事件归纳出"这个人很勤奋"）。有反馈规划是面向未来的修正：根据刚刚发生的行动结果，动态调整下一步计划（如任务失败了，换个方法重试）。两者可以协同工作：记忆反思产出的抽象洞察，可以作为有反馈规划的重要参考依据。

Q2: 为什么说"数据集对齐"和"能力蒸馏"是两种本质不同的思路？

"能力蒸馏"是提取专家级的能力（如顶级销售的话术策略），目的是让模型"变强"。"数据集对齐"是复现普通个体的身份和统计分布（如 34 岁加州亚裔女性），目的是让模拟"变真"。前者追求最优，后者追求真实。

Q3: "泛化的人类对齐"为什么是一个两难问题？

安全助手需要过滤有害内容，但社会模拟器需要忠实地再现人类的偏见和负面情绪，否则无法发现和治理真实社会问题。这要求设计一种上下文敏感的、更广义的对齐标准，而非一刀切地"向善"。

9. 实用资源

9.1 推荐阅读顺序

入门：先读本文第 1-2 章，建立全局概念。
深入核心：精读第 2 章，理解四大模块的统一框架。
了解落地：浏览第 3 章，找到与自己研究方向最相关的应用场景。
关注评估：阅读第 4 章，了解如何评判智能体的好坏。
把握前沿：细读第 6 章，寻找潜在的研究切入点。

9.2 核心开源库

名称	用途
LangChain	通用智能体开发框架
AutoGPT	全自动目标分解与执行
AgentVerse	多智能体协作与交互模拟
BMTools	工具扩展与社区共享平台
GPT-Engineer / DemoGPT	通过 Prompt 自动化代码生成

9.3 核心评估基准

名称	评估维度
AgentBench	通用智能体综合评估
WebArena	网页任务端到端评估
ToolBench	工具使用能力评估
SocKET	社会知识能力评估（58 项任务）

10. 总结

作为该领域第一篇系统性综述，本文最大的贡献在于：提出了一套统一的概念框架（画像-记忆-规划-行动），将原本各自独立的研究串联成一个有机的整体。这使得后续研究可以在同一种语境下进行更精准的对比、改进和创新。对于希望进入这一领域的新人，这篇综述是目前最清晰的一张地图；对于已有基础的研究者，它系统梳理的挑战清单（特别是泛化对齐、知识边界等深层问题）也为寻找下一个突破口提供了明确的指引。