自进化智能体协同进化综述

  • 论文标题: A Systematic Survey of Self-Evolving Agents: From Model-Centric to Environment-Driven Co-Evolution

  • 论文链接: TechRxiv PDF

  • 论文作者: Zhishang Xiang、Chengyi Yang、Zerui Chen、Zhimin Wei、Yunbo Tang、Zongpei Teng、Zexi Peng、Zongxia Li、Chengsong Huang、Yicheng He、Chang Yang、Xinrun Wang、Xiao Huang、Qinggang Zhang、Jinsong Su

  • 一句话总结: 论文把自进化智能体统一为"模型中心自演化---环境中心自演化---模型---环境协同进化"三层谱系,并明确把可验证、可扩展、能随智能体共同生长的环境视为突破能力上界的决定因素。

背景与动机

这篇 survey 要解决的不是"再列一遍 agent 方法",而是解释一个更核心的转向:为什么传统 agent 的进步越来越受限于人工监督,以及为什么单纯把模型做大、把 CoT 跑长,并不能自然得到开放世界里的持续进化。

论文把瓶颈讲得很直接。现有 agent 大多沿着"预训练 + 人工驱动的后训练"路线走:SFT 依赖高质量标注,RL 又常被人类设计的奖励函数约束。这样做有两个上限。第一,监督规模上不去 ,高质量 agent 数据比通用语料更贵。第二,能力天花板来自人类监督本身,模型最多学到人类已经写进数据和奖励里的东西。

作者据此提出 Self-Evolving Agents 范式:让 agent 不再只是消费静态数据,而是主动构造自己的改进闭环。闭环中的学习信号可以来自内部推理轨迹,也可以来自外部环境反馈。论文随后给出的核心判断是:真正让能力持续外溢的,不是模型内部再多一点自我反思,而是环境能否提供新的知识、真实的反馈、逐步抬升的任务难度,以及和 agent 一起演化的空间。

整体框架与分类体系总览

论文先给了一条时间线,再给统一 taxonomy。时间线说明这个方向并非突然出现,而是从 self-consistency、STaR、ReAct、Reflexion 一路演化到 DeepResearch、Reasoning Gym、AgentGym 这类更强环境参与的系统;taxonomy 则回答"这些方法到底在演化什么"。

作者把自进化方法分成三大范式:

模型中心自演化

  • 演化对象: 模型内部推理过程或参数

  • 核心资源: test-time 计算、合成数据、自博弈轨迹

  • 解决的问题: 把预训练权重里"已有但未充分释放"的能力挖出来

  • 代表分支: 并行采样、顺序自纠错、结构化推理、离线/在线自训练

环境中心自演化

  • 演化对象: 知识获取、经验沉淀、记忆结构、工具与多智能体拓扑

  • 核心资源: 检索、执行结果、外部交互、经验库

  • 解决的问题: 模型参数之外的知识与行为如何持续积累

  • 代表分支: 静态知识演化、动态经验演化、模块架构演化、拓扑演化

模型---环境协同进化

  • 演化对象: agent 策略与环境本身同时变化

  • 核心资源: 多智能体交互、课程难度调节、可扩展环境生成

  • 解决的问题: 如何避免模型强了、环境却不再提供新增益

  • 代表分支: 多智能体策略协同进化、环境训练

这三层不是并列目录,而是论文的主线递进:模型中心自演化 先把模型内部潜力压出来,环境中心自演化 把环境当成知识与经验来源,模型---环境协同进化则把环境从"被调用的外部资源"升级为"会一起长大的训练对象"。作者明确把第三层视为未来主航道。


形式化定义与统一问题表述

论文的公式不多,但这几条公式把全文的讨论框住了:agent 是什么、环境是什么、交互如何形成进化闭环。

Agent 五元组

论文将 LLM agent 写成一个五元组:

A = ⟨ Φ , M , P , T , I ⟩ A = \langle \Phi, M, P, T, I \rangle A=⟨Φ,M,P,T,I⟩

其中工具集合还单独写成:

T = { t 1 , t 2 , ... , t k } T = \{t_1, t_2, \dots, t_k\} T={t1,t2,...,tk}

符号 含义 类型 / shape 论文中的角色
A 完整 agent 结构化对象;非张量,无固定 shape 把 agent 看成由认知、记忆、工具和交互部件组成的系统,而不是单一 LLM 调用
\Phi Core LLM 模型对象;参数记为 \theta,实现上是参数张量集合,论文未给固定维度 负责语义理解、推理、指令生成,是"脑"
\theta LLM 参数 高维参数张量集合;可抽象记作 \theta \in \mathbb{R}^n,但论文未指定 n 当方法做参数更新时,被优化的核心对象就是 \theta
M Memory 短期/长期记忆容器;非张量,无固定 shape 存历史交互、知识库、过去经验,缓解上下文窗口和无状态问题
P 式(1) 中出现的组件 论文未给显式 shape 这里有一个记号层面的不一致:式(1) 写了 P,但紧接着的分项说明只明确展开了 \PhiMTI 四类部件。为了避免超出正文推断,以下解读不把 P 当作独立技术分支展开。
T = \{t_i\}_{i=1}^k 工具集合 有限集合,基数为 k;每个 t_i 是 API / 外部服务 / 执行器 把模型能力延伸到检索、计算、执行和物理控制
I Interaction Interface 接口模块;非张量,无固定 shape 承担感知、动作执行、反馈采集三件事,把 agent 接到真实环境里

这一定义的重点不在"用五个字母把 agent 记下来",而在于作者把记忆、工具、接口 都写成一等公民。后面的环境中心演化、协同进化,本质上都在增强这三类外部耦合部件,而不是只改 \Phi

Environment 二元组

论文把环境定义为:

E = ⟨ S , V ⟩ E = \langle S, V \rangle E=⟨S,V⟩

符号 含义 类型 / shape 论文中的角色
E 环境整体 结构化对象;非张量,无固定 shape 不是黑箱背景板,而是提供状态与验证机制的外部系统
S 状态空间 状态集合;s_t \in S,单个状态通常是符号对象/文本上下文/任务配置,无统一张量维度 包含任务上下文、初始条件、外部知识库等 agent 可观察现实
V 验证与反馈机制 验证器 / 反馈函数;输出可以是标量、文本、执行痕迹或状态码 这是环境最关键的部分,它决定 agent 是否能拿到客观、可归因的改进信号

对这篇 survey 来说,VS 更关键。作者一再强调:自进化要能稳定发生,环境必须能验证 。代码解释器、单元测试、数学标准答案、定理证明器之所以反复出现,不是因为这些任务更"高级",而是因为它们更容易提供高质量、可复用的 V

Agent---Environment 交互闭环

论文把交互过程抽象成 MDP,并给出轨迹定义:

τ = ( s 0 , a 0 , r 1 , s 1 , ... , s t , a t , r t + 1 , ...   ) \tau = (s_0, a_0, r_1, s_1, \dots, s_t, a_t, r_{t+1}, \dots) τ=(s0,a0,r1,s1,...,st,at,rt+1,...)

策略生成动作:

a t ∼ π Φ ( a ∣ s t ) a_t \sim \pi_{\Phi}(a \mid s_t) at∼πΦ(a∣st)

环境转移与反馈在文中写成转移概率 T(s_{t+1}\mid s_t, a_t)。为避免和前面的工具集合 T 混淆,下面记作 \mathcal{T}

s t + 1 ∼ T ( s t + 1 ∣ s t , a t ) s_{t+1} \sim \mathcal{T}(s_{t+1} \mid s_t, a_t) st+1∼T(st+1∣st,at)

符号 含义 类型 / shape 解读重点
\tau 交互轨迹 变长序列;长度随 rollout horizon 变化,无固定张量 shape 后文很多方法本质上都在优化"如何采样、筛选、压缩、复用 \tau"
s_t 时刻 t 的状态 符号状态;若送入 LLM,通常会被序列化成 token 序列,但论文未给统一长度 T_t 可对应问题描述、网页 DOM、代码仓库状态、实验场景等
a_t 时刻 t 的动作 离散动作 / 文本动作 / 工具调用 / API 调用;非固定张量 不是只有自然语言输出,也可以是真实执行动作
r_{t+1} 反馈信号 记号上像标量 reward;但论文明确指出实际可扩展为文本批评、执行结果、错误轨迹 这解释了为什么 survey 里"reward"不应狭义理解成一个数
\pi_{\Phi}(a \mid s_t) \Phi 参数化的策略 条件分布;定义在动作空间上 模型中心方法主要在改这条策略,协同进化方法同时改策略和环境
\mathcal{T}(s_{t+1} \mid s_t,a_t) 状态转移机制 条件分布 / 环境动态 \mathcal{T} 也能被训练或扩展,就进入协同进化

这一组公式已经把全文串起来了:谁产生动作、谁给反馈、反馈是知识还是评价、环境会不会一起变化。 后面的全部分类,都只是对这四个问题的不同回答。


逐维度拆解

下面按论文主张的三大范式展开。这里的"模块"不再是 Transformer 层,而是 survey 自己定义的演化维度:每一维回答"哪一部分在变、靠什么信号变、变完会沉淀到哪里"。

模型中心自演化:先榨干内部潜力,再把有效轨迹写回参数

这一类方法默认:模型里已经有不少潜在能力,问题是如何在不依赖新人工标注的情况下把它们释放出来。作者把它再拆成两路:推理期增强,以及训练期内化。

子类 模块作用 输入 → 输出(类型 / shape) 反馈 / 更新对象 代表方法
并行采样 扩大单次求解时的候选覆盖面,降低单路径局部最优 s_t 或问题描述 → \{y_i\}_{i=1}^N 候选解集;输出为变长文本集合,无固定 shape 聚合器在候选之间投票、排序或一致性校验;通常不改参数 Self-Consistency、LLM-BLENDER、Scaling Repeated Sampling
顺序自纠错 把"生成---反馈---修正"串成闭环,逐步打磨单条解轨迹 初始答案 y^{(0)} + 反馈 f^{(k)} → 修正答案 y^{(k+1)};都是变长文本/执行轨迹 依赖 verbal feedback、外部工具验证或失败记忆;通常先改轨迹,再视情况改参数 Reflexion、SELF-REFINE、CRITIC、PLANSEARCH
结构化推理 把线性 CoT 扩成树/图/搜索过程,让推理本身可回溯、可裁剪 问题状态 s_t → 搜索结构 G / 树 \mathcal{T}_{search} / 最终解 a_t;对象型结构,无固定张量 shape 通过搜索、验证、回溯优化推理路径;核心是计算分配,而不是参数更新 ToT、GoT、RoG、Graph-CoT、LATS
合成驱动离线自进化 先用模型自己造数据,再把有效模式蒸馏回参数 种子集合 D_{seed} → 合成数据 D_{syn} → 更新后参数 \theta'D_{syn} 是样本集合,大小随生成轮次变化 通过 SFT、偏好优化或离线 RL 更新 \theta SELF-INSTRUCT、STaR、LMSI、SPIN、ReST-MCTS*
探索驱动在线自进化 让模型在环境里试错,自博弈或环境交互产生新策略 当前策略 \pi_{\Phi} + 环境 E → 在线轨迹 \tau + 反馈 r → 新策略 \pi_{\Phi'} 反馈来自自博弈、代码执行、文档语料或外部环境;既可能改参数,也可能改策略缓存 R-Zero、Absolute Zero、SPIRAL、WebRL、SPICE、TTCS

这一段最重要的判断有两条。

第一,推理增强和参数增强不是一回事 。并行采样、自纠错、树搜索,本质上在增加 test-time compute;离线/在线自进化才真正把新能力写回 \theta

第二,离线合成更像 bootstrap,在线探索才更接近持续进化。论文在 Figure 4 里把两者放在一起对照:前者擅长从已有知识里提纯训练样本,后者则通过真实试错获得闭环反馈。作者后面转向环境中心与协同进化,正是因为只靠前者仍会被"模型原有知识边界"卡住。

环境中心自演化:把环境当知识源、经验源、结构源

这一类方法的焦点从"怎么让模型自己想得更久"转到"怎么让外部世界持续给模型补东西"。论文把它拆成四条子线:静态知识、动态经验、模块架构、agent 拓扑。

方向 模块作用 输入 → 输出(类型 / shape) 典型反馈 代表方法
静态知识演化 把外部信息源接入 agent,让模型主动识别知识缺口并发起检索 s_t / 查询意图 → 检索证据集 R_t → 扩展上下文 c_t;都是文档/证据集合,无固定 shape 检索相关性、证据一致性、报告质量 SELF-RAG、Search-R1、Search-o1、ReSearch、DeepResearcher、WebThinker
动态经验演化 把环境交互轨迹压成可复用经验,用于下一次决策 轨迹 \tau → case bank / workflow / skill library / latent memory;记忆条目数随时间增长 成功率、奖励、执行结果、自反思、未来状态 Agent Workflow Memory、Agent KB、Memento、GEPA、ReasoningBank、MemGen
模块架构演化 优化 Memory、Tool、Interaction Interface 三类中介模块 原始历史 H_t / 工具调用流 → 压缩记忆、路由策略、工具库 T' 上下文效率、工具效果、长期任务完成度 MemoryBank、MemGPT、ReadAgent、A-MEM、Mem0、VOYAGER、TOOLMAKER
Agent 拓扑演化 让多智能体的结构本身成为可学习对象 团队图 G_t / workflow code → 新结构 G_{t+1};图结构对象,无固定张量 shape 协作收益、信息流、执行表现、成本---性能平衡 AFLOW、MACNET、ADAS、GPTSwarm、AutoAgents、G-Designer、MaAS

这里有一个很关键的对照:

  • 静态知识演化解决的是"我不知道什么",偏向补知识。

  • 动态经验演化解决的是"我下次该怎么做",偏向积累做事经验。

论文特别用 Figure 5 把这两条线放在一起:前者让 agent 从环境里拿"事实与证据",后者让 agent 从环境里拿"行为后果与可迁移策略"。这也是为什么作者把 Deep Research、经验库、工作流记忆放在同一个大范式里------它们都依赖环境,只是依赖的环境产物不同。

模型---环境协同进化:环境不再只是反馈器,而是一起训练的对象

这是全文最重要的一段。作者认为,如果环境始终静止,那么 agent 再强,也终会把环境"刷穿"。真正的开放式增长要求环境本身随 agent 一起变难、变广、变可验证。

方向 模块作用 输入 → 输出(类型 / shape) 反馈 / 更新对象 代表方法
多智能体策略协同进化 把"其他 agent"本身视为环境的一部分,通过交互共同提升策略 多智能体交互轨迹 \tau^{multi} → 更新后的多策略集合 \{\pi_i'\};对象集合,无固定 shape 内部讨论奖励、协作质量、验证器反馈、对手/队友带来的新策略 OPTIMA、MAPoRL、MARFT、CoMAS
自适应课程演化 根据 agent 当前能力实时调整任务难度 能力评估 m_t → 新任务分布 p(task \mid m_t);分布对象,无固定 shape 难度匹配、样本效率、稳定性 GenEnv、Environment Tuning、RLVE
可扩展环境演化 自动生成大规模、多样化、可验证环境,为持续训练提供新任务 环境生成器 g_\psi → 任务实例 / 奖励器 / 验证器集合 \mathcal{E}_{new} 程序化验证、密集奖励、可扩展任务生成 DreamGym、AutoEnv、Endless Terminals、Reasoning Gym、AgentGym

Figure 6 传达的信息很集中:

  1. 模型中心自演化的问题在于缺少外部验证,容易在迭代中积累错误,还会高估高概率但高方差的轨迹。

  2. 环境中心自演化的问题在于环境经常是静态的、单任务的、不可扩展的,训练和环境逐渐脱节。

  3. 协同进化的解法就是把环境做成会跟着 agent 成长的对象:能调难度、能按需给反馈、能生成多任务场景。

这也是论文最明确的结论:自进化的下一阶段,不是继续向模型内部挤更多推理,而是把环境建成"可验证 + 可生长 + 可联合优化"的系统。


训练目标与优化形式化

这篇论文没有给一个统一的全局 loss。它给出的统一形式化是 MDP 式交互闭环,而不是单一训练目标。这一点很重要,因为不同子范式优化的对象根本不同:有的优化 test-time 采样策略,有的优化模型参数,有的优化经验库,有的优化团队拓扑,协同进化甚至连环境也要一起优化。

与其硬写一条论文没有给出的总损失,更忠实的表达方式是把优化信号拆开:

优化信号 典型来源 主要更新对象 对应范式
候选一致性 / 排名 多次采样、自一致性投票、pairwise ranking 单次推理时的候选选择与聚合策略 并行采样、结构化推理
文本批评 / 自反思 Reflexion、SELF-REFINE、critic game、self-reflection 答案轨迹、系统提示、经验条目 顺序自纠错、在线经验适配、GEPA/ACE 一类方法
可执行验证信号 编译器、单元测试、代码执行、定理证明器、环境状态码 策略参数 \theta、技能库、工具调用策略 训练驱动自演化、软件工程 agent、环境训练
标量奖励 / 偏好信号 RL、GRPO、对抗博弈、偏好优化 策略 \pi_{\Phi} 或参数 \theta 在线自进化、多智能体协同进化
检索证据 / 研究材料 搜索引擎、知识库、网页、文档语料 上下文 c_t、研究报告、外部记忆库 静态知识演化、Deep Research
任务难度与环境结构 课程调度器、环境生成器、可验证任务工厂 环境参数、任务分布、验证器 自适应课程演化、可扩展环境演化

如果一定要用一句话概括这一节:论文把"loss 设计"上升成了"反馈生态设计"。它关心的不只是奖励函数本身,而是奖励、验证、检索、经验沉淀、任务生成如何共同组成进化闭环。

评测体系、应用证据与风险边界

这篇 survey 不是一篇"统一跑分"的 leaderboard 论文。它对评测的贡献主要是重写 benchmark 版图:哪些 benchmark 在测模型内部能力,哪些 benchmark 真正在测 agent 与环境的交互能力。

Benchmark taxonomy

评测桶 代表 benchmark 主要测什么 更适合评估的范式
通识推理 MMLU-Pro、HotpotQA、LongBench、AGIEval、ARC 多跳推理、长上下文、抽象规则、考试式认知 模型中心自演化
科学推理 GPQA、SuperGPQA、SciBench、ChemBench、SciQA 专家级科学问答、计算推理、可验证科学问题 模型中心 + 协同进化前的可验证训练
数学推理 AIME、MATH、OlympiadBench、GSM8K、AMC 长链条证明、数值求解、竞赛级难题 推理增强、在线探索、自博弈
代码生成 LiveCodeBench、BigCodeBench、HumanEval、EvalPlus、CRUXEval 功能正确性、真实库调用、执行级验证 训练驱动自演化、软件工程 agent、环境训练
网页与工具使用 WebArena、WebVoyager、ToolLLM / ToolBench、Mind2Web、VisualWebArena 长程网页交互、真实 API 调用、多模态观察---动作闭环 环境中心自演化、协同进化
通用 agent gym / OS / SWE AgentGym、AgentBench、GAIA、ALFWorld、DeepResearch Bench、SWE-bench、Terminal-Bench、OSWorld 跨环境任务、研究型搜索、终端与操作系统控制、仓库级修复 环境中心自演化、模型---环境协同进化

这张表背后的判断很直接:只看静态 QA、数学、代码 benchmark,只能说明模型内部推理够不够强;要判断 self-evolution 是否真的成立,必须看 agent 能不能在环境里持续互动、记忆、修正、扩展。

应用层证据

论文还把应用场景分成三类,并给出了几组非常具体的结果。这些结果的价值不在于"某个数字更高",而在于它们展示了环境反馈已经能把 agent 推到真实工作流里

应用域 代表系统 环境定义与演化机制 论文列出的突破结果
自动化科学发现 The AI Scientist、AlphaProof、ChemCrow、Coscientist、GNoME、A-Lab、CRESt、FARS 同行评审系统、定理验证器、实验室工具、机器人平台、DFT 模拟空间等构成可验证环境 GNoME 发现 220 万稳定晶体;A-Lab 在 17 天连续运行中达到 71% 合成成功率;CRESt 找到高性能 8 元催化剂并报告 9.3× cost-performance gain
自主软件工程 SWE-agent、Claude Code、Manus、OpenClaw、Devin、Cursor 代码库、终端、CI、浏览器、IDE、项目历史构成强反馈软件环境 论文没有给统一横向分数,但强调 bug-fix、长时程编码、技能沉淀和人机协作正在成为环境驱动的主战场
开放世界模拟 Voyager、GITM、Cradle、Project Sid、Generative Agents、SIMA、Genie 3 Minecraft、GUI、虚拟社会、生成式 3D 世界成为可探索、可塑形环境 Voyager 实现 15.3× faster progression;GITM 在钻石任务上 +47.5% success;Project Sid 展示了社会规范与经济活动的涌现

风险与伦理边界

论文没有单列一个伦理章节,也没有给出规范性伦理框架。它对"安全/风险"的处理,主要体现在两类问题上:

  1. 反馈是否可验证。 代码执行器、单元测试、数学验证器之所以反复被强调,是因为它们能减少 reward hacking 和错误自强化。

  2. 环境是否足够真实。 论文指出,很多自进化方法仍停留在静态、简化、单任务模拟器里,这会让 agent 在理想化环境中看起来进步很快,但一落到真实世界就掉性能。

也就是说,这篇 survey 对安全的核心理解不是"加一套抽象伦理原则",而是先把验证机制、反馈质量、环境真实性做对。至于更广义的伦理治理,论文并没有展开。

优势与局限

这篇 survey 的价值

  • 分类框架清楚。 它不是按任务、按模型、按工具零散罗列,而是按"谁在演化"统一拆成模型、环境、模型---环境三层。

  • 形式化足够统一。A = \langle \Phi, M, P, T, I \rangleE = \langle S, V \rangle、轨迹 \tau 这三条主线,把后文所有方法装进同一套交互语义里。

  • 对未来方向的判断明确。 论文不是中性地说三条路线都重要,而是明确押注协同进化,认为环境定义与环境训练会成为下一阶段关键瓶颈。

  • 应用落点具体。 从科学发现、软件工程到开放世界模拟,作者给出的不是空泛"有前景",而是列出了已经跑到真实环境中的系统与结果。

论文自己指出的局限

  • 静态且不可自适应的环境仍是主流。 环境不长大,agent 最终会把它学穿。

  • 过度依赖可自动验证任务。 编译器、测试、证明器很好用,但也把研究重心锁在了更容易验证的任务上。

  • 模拟环境真实度有限。 简化模拟器难以覆盖物理世界和开放社会里的噪声、随机性与复杂因果。

  • 仍依赖人类初始化。 很多"自进化"方法的起点仍是人工 prompt、人工偏好或人工提供的初始范式。

  • 自生成训练会带来 model collapse。 反复在自生成数据上训练,容易丢失长尾信息和策略多样性,削弱泛化能力。

作者最终给出的方向也很集中:环境要能随 agent 一起长大,要更真实、更开放、能连接多个模拟器与真实系统,还要把自进化从"有标准答案的任务"推向"没有明确 ground truth 但依然能自校验"的任务。

相关推荐
项目管理者1 小时前
PMP 专业项目管理软件核心应用场景指南
人工智能·甘特图·敏捷流程
Arranging157881 小时前
会议纪要整理场景下主流办公效率工具使用体验分析
人工智能
cd_949217211 小时前
AI Infra选型指南:企业算力底座怎么建
人工智能
c_lb72881 小时前
最新AI量化提效,交易认知和技术实现要接上
人工智能·python
智恒百亿1 小时前
算力基建深度分析:国内服务器产业高强度迭代下的技术壁垒与全球化优势
服务器·人工智能·算力基建
机汇五金_1 小时前
钣金外壳定制厂家助力设备升级
大数据·人工智能·python·物联网
星马梦缘1 小时前
机器学习与模式识别 第十二章 自适应学习优化器 考点压缩
人工智能·机器学习·优化器·sgd·adam·rmsprop
ai产品老杨1 小时前
多路摄像头AI分析性能优化指南
人工智能·性能优化
想你依然心痛1 小时前
HarmonyOS 6(API 23)实战:基于HMAF的「量子编排」——PC端AI智能体量子计算模拟与量子-经典混合智能编排平台
人工智能·交互·实时音视频·智能体