Meta 提出 HyperAgents：让智能体实现自主进化

一、超级智能体架构 HyperAgents

智能体能自己进化自己吗？Meta最近给出了答案。

2026年3月19日，Meta发布了一篇论文《HyperAgents》，提出了一个能让智能体实现自主进化的架构。

核心思路只有一个：用一个 meta-agent 观察 task-agent 的表现，自动生成代码补丁修改它，循环往复，让 agent 越来越强。

关键技术，在于一个叫 "达尔文哥德尔机" 的东西。

二、哥德尔机

要理解 达尔文哥德尔机 ，得先说说它的理论基础------哥德尔机。

哥德尔机是LSTM之父Jürgen Schmidhuber在2003年提出的一个理论设想，旨在解决 AI系统如何安全地自我改进 这一难题。它的核心思想很优雅：

智能体要改自己的代码，必须先证明 "改完后比原来好"，确保净收益为正。

具体来说，系统需要构造一个数学形式化证明，证明在当前资源 / 时间约束下，自我改写后的期望效用 ≥ 不改写的期望效用。只有满足这样的条件时，才会执行代码修改。

理想很丰满，现实很骨感------通用场景下构造严格形式化证明几乎不可行，复杂任务、开放环境下无法建立可计算的数学效用模型。

现实中执行的任务，要么太主观（创意写作、伦理决策），要么太复杂（多轮控制），根本没法用数学模型评估。

所以Smart的人就想：既然数学证明搞不定，那能不能换个思路证明 改动的收益为正？

三、达尔文哥德尔机：用统计数据代替数学证明

达尔文哥德尔机的核心思路很简单：经验验证替代数学证明。 不需要构造复杂的数学证明，直接看实际效果，效果好就修改，不好就拉倒。

双层 Agent 架构设计

任务智能体（task-agent）：实际干活的人。根据任务场景不同，它的任务可能是评审论文、解数学题、或者写代码。它是被进化的对象。
元智能体（meta-agent）：自动改进的工程师。它读取代码库和评估结果（来自系统脚本的评分报告），分析 task-agent 的性能，生成代码修改（diff/patch），直接修改 task-agent 的代码以提升性能。它也可以修改自己，实现递归自修改。

整个进化过程都在 Docker 容器里隔离执行，安全且可复现。

Archive 档案库：不只存最优解

Archive 是整个进化的记忆。在每次迭代的时候，会先生成一堆迭代候选Agent，然后从候选的Agent中，选择出最好的那个进行进化。每一代 agent 跑完评估后，评估结果和修改的代码都存入 archive.jsonl。

Archive 不做淘汰， 所有历史都保留，包括表现差的 agent------低分节点只是在父代选择时被选中的概率降低，但永远不会从种群里删除。

这么做是为了维护种群多样性，如果过早收敛到一个局部最优解，往往意味着进化卡住了，失去了发现更优解的机会。

评分与分阶段评估

进化需要"选择"，而选择依据来自评分。HyperAgents 定义了6种任务以及每一种任务的评分标准：

search_arena --- 判断两段搜索结果哪个更好。
paper_review --- 论文审稿。输入论文全文，输出评审意见，按照判断准确率评分。
polyglot --- 多语言编程题（Python / Rust / Go / JavaScript / C++ / Java），每道题在独立 Docker 容器里执行测试验证。
balrog --- 游戏/冒险环境中的 agent 行为，包含 BabyAI、BabaIsAI、MiniHack、NetHack 等多个子场景。
imo --- 数学竞赛题，分两种模式：imo_grading（判题）和 imo_proof（生成证明）。
genesis --- 物理仿真机器人控制（Genesis 引擎）。

任务场景	评分指标	含义
search_arena / paper_review	overall_accuracy	判断正确率
polyglot	accuracy_score	测试用例通过率
balrog	average_progress	游戏关卡推进程度
genesis	average_fitness	机器人控制适应度
imo_proof	points_percentage	数学证明得分百分比

评估流程里还有一个重要的设计------Staged Eval（分阶段评估）：

search_arena / paper_review：先用 10% 的样本（约 10 条）快速评估，分数够高才跑完整 100 条。
polyglot：先跑 small.json 子集，超过阈值（40%）才继续跑 medium.json。

这样做可以快速淘汰明显很差的 agent，大幅节省 API 调用成本和时间成本。

进化选择策略：不是只选最好的

每一代进化时，meta-agent 需要从上一代 Agent 中选出一个来产生进化后代。HyperAgents 提供了 5 种选择策略，默认使用 score_child_prop：

策略	逻辑
best	选评分最高（贪心）
latest	选最新通过编译的
random	完全随机
score_prop	按分数概率采样（sigmoid 归一化）
score_child_prop	分数概率 × 子代惩罚（最有意思）

其中 score_child_prop 的权重公式值得单独看一眼：

复制代码

weight = sigmoid(score) × exp(-(children/8)³)

子代数量越多，权重被指数衰减惩罚越重。背后的逻辑：如果一个 agent 已经被选为父代很多次，说明它的"变体空间"可能已经被充分探索了，强迫系统去看看其他分支。

这借鉴了进化算法里的 Quality-Diversity 思想：不只追求最优，也要保持多样。

实现真正进化

这是整个架构最牛的设计。

select_next_parent.py------也就是Agent选择策略本身------也在 meta-agent 的可修改范围内。意味着，连框架里面的进化规则本身，也在整个进化框架之内。也就是说，这套架构甚至可以完善架构自身，实现真正的进化。

理论上，如果进化迭代次数足够，系统可能会涌现出比人工设计的 5 种策略更优秀的选择机制。

四、实验验证

首先设置基线模型，用于对比，证明有效性。

DGM-H w/o self-improve：固定元智能体为初始版本，仅优化任务智能体。
DGM-H w/o open-ended exploration：不保留存档库，新智能体直接替换前代。
原始 DGM：依赖手工设计的固定指令生成机制，仅适配编码领域。
DGM-custom：手工定制指令生成机制以适配目标领域。
领域静态基线：各任务领域已有的手工优化方案（如论文评审领域的 AI-Scientist-v2、数学评分领域的 ProofAutoGrader）。

DGM-H（论文模型）在所有领域均实现显著性能提升，且无需领域定制化：

编码领域：50 任务训练集通过率从 0.140 提升至 0.340（+20.0%），未见过任务从 0.084 提升至 0.267（+18.3%），与专为编码优化的原始 DGM 性能相当。
论文评审：初始性能 0.0，最终测试准确率达 0.710（CI：0.590-0.750），超越静态基线（0.630），且学会多阶段评估流程与明确决策规则。
机器人奖励设计：适应度从 0.060 提升至 0.372（CI：0.355-0.436），优于直接优化评估指标的默认奖励函数（0.348）。

论文还通过 imp@50 指标（固定元智能体，50 次迭代内任务智能体的最大性能提升）验证迁移能力：

初始元智能体迁移无效：无论是 DGM 还是 DGM-H 的初始元智能体，迁移到数学评分领域后 imp@50 均接近 0。
DGM-custom 迁移无效：从论文评审 / 机器人领域迁移的 DGM-custom 元智能体，在数学评分领域 imp@50 仍为 0.0（CI：0.0-0.010），依赖领域定制化而非通用改进能力。
DGM-H 迁移效果显著：从论文评审 / 机器人领域迁移的 DGM-H 超智能体，在数学评分领域 imp@50 达 0.630（CI：0.540-0.630），显著优于初始元智能体（p<0.05）。
迁移核心：DGM-H 自主习得通用元能力，包括性能追踪器（PerformanceTracker）、持久化记忆（存储历史洞察与因果假设）等，无需重新训练即可适配新领域。

这是关键发现，证明系统能 从源领域（论文评审+机器人奖励设计）学习 ，然后 应用到从未见过的目标领域（数学评分） 。 元智能体学会了 "如何改进"，而不是只是学会了特定任务的知识。