Karpathy的AutoResearch与Gemini三层 Agent 架构后的相通设计逻辑

XuecWu32026-03-14 19:38

Karpathy刚开源的 autoresearch，跟 Google DeepMind 的三层 Agent 架构不谋而合。Google 论文里，Gemini Deep Think 负责提假设。autoresearch 里，agent 读 program.md 生成假设。LLM 都作为无约束的假设生成机。（这样做的本质在于发挥LLM输出的多样性，充分利用其创意能力）
之后，两个工作其实都设计了一套剪枝的流程。Google 论文中的 PUCT 算法管理搜索树，在 600 个候选节点中，80% 会被自动剪掉。autoresearch 的剪枝逻辑是设定固定的五分钟时间预算，超时的会被淘汰。人类只需编写 program.md 文件，而剪枝过程是自动运行的。
形式化验证，并预期得到真实反馈。Google 论文里，每走一步就拿数值积分的精确结果做比对。autoresearch 里，验证指标是 val_bpb，即为验证集上的 bits per byte，数字越低越好，和词表大小无关，架构怎么变都能公平比较。
DeepMind 路线：在"思维空间"里搜索。LLM 先提出推理步骤，利用树搜索（如 MCTS/PUCT）加上验证器，找到最优推理路径。Karpathy 的 autoresearch 路线：在"实验空间"里搜索。LLM 提出实验想法，系统自动运行训练，根据指标反馈（如 val_bpb）保留更好的实验。本质区别： 前者优化"想法/推理"（reasoning search） ，后者优化"实验/结果"（empirical experimentation）。但两者也存在一个共同特点：LLM均为无约束的假设生成机，负责提出可能的想法/实验。