Karpathy的AutoResearch与Gemini三层 Agent 架构后的相通设计逻辑

  1. Karpathy刚开源的 autoresearch,跟 Google DeepMind 的三层 Agent 架构不谋而合。Google 论文里,Gemini Deep Think 负责提假设。autoresearch 里,agent 读 program.md 生成假设。LLM 都作为无约束的假设生成机。(这样做的本质在于发挥LLM输出的多样性,充分利用其创意能力)

  2. 之后,两个工作其实都设计了一套剪枝的流程。Google 论文中的 PUCT 算法管理搜索树,在 600 个候选节点中,80% 会被自动剪掉。autoresearch 的剪枝逻辑是设定固定的五分钟时间预算,超时的会被淘汰。人类只需编写 program.md 文件,而剪枝过程是自动运行的。

  3. 形式化验证,并预期得到真实反馈。Google 论文里,每走一步就拿数值积分的精确结果做比对。autoresearch 里,验证指标是 val_bpb,即为验证集上的 bits per byte,数字越低越好,和词表大小无关,架构怎么变都能公平比较。

  4. DeepMind 路线: 在"思维空间"里搜索。LLM 先提出推理步骤,利用树搜索(如 MCTS/PUCT)加上验证器,找到最优推理路径。Karpathy 的 autoresearch 路线: 在"实验空间"里搜索。LLM 提出实验想法,系统自动运行训练,根据指标反馈(如 val_bpb)保留更好的实验。本质区别: 前者优化"想法/推理"(reasoning search)后者优化"实验/结果"(empirical experimentation)。但两者也存在一个共同特点:LLM均为无约束的假设生成机,负责提出可能的想法/实验。

相关推荐
云烟成雨TD19 小时前
Spring AI Alibaba 1.x 系列【31】集成 Studio 模块实现可视化 Agent 调试
java·人工智能·spring
kimi-22219 小时前
CLIP 与 Qwen-VL 模型架构主要区别
人工智能·语言模型
与芯同行20 小时前
单声道音频Codec在语音交互产品中的工程设计要点与常见问题分析
人工智能·语音识别·ai语音对话芯片·tp9311·天源中芯tpower
citi20 小时前
OpenViking 源代码编译指南
人工智能·context
MediaTea20 小时前
Scikit-learn:数据集
人工智能·python·机器学习·scikit-learn
sali-tec20 小时前
C# 基于OpenCv的视觉工作流-章52-交点查找
图像处理·人工智能·opencv·算法·计算机视觉
冬奇Lab20 小时前
一天一个开源项目(第81篇):YC 总裁亲自写代码,把自己的大脑开源了
人工智能·开源·资讯
冬奇Lab20 小时前
SubAgent 原理深度解析:AI 系统如何通过委托实现专业化分工
人工智能·agent·claude
ZhengEnCi20 小时前
01c-循环神经网络RNN详解
人工智能·深度学习
仙女修炼史20 小时前
CNN的捷径学习Shortcut Learning in Deep Neural Networks
人工智能·学习·cnn