-
Karpathy刚开源的 autoresearch,跟 Google DeepMind 的三层 Agent 架构不谋而合。Google 论文里,Gemini Deep Think 负责提假设。autoresearch 里,agent 读 program.md 生成假设。LLM 都作为无约束的假设生成机。(这样做的本质在于发挥LLM输出的多样性,充分利用其创意能力)
-
之后,两个工作其实都设计了一套剪枝的流程。Google 论文中的 PUCT 算法管理搜索树,在 600 个候选节点中,80% 会被自动剪掉。autoresearch 的剪枝逻辑是设定固定的五分钟时间预算,超时的会被淘汰。人类只需编写 program.md 文件,而剪枝过程是自动运行的。
-
形式化验证,并预期得到真实反馈。Google 论文里,每走一步就拿数值积分的精确结果做比对。autoresearch 里,验证指标是 val_bpb,即为验证集上的 bits per byte,数字越低越好,和词表大小无关,架构怎么变都能公平比较。
-
DeepMind 路线: 在"思维空间"里搜索。LLM 先提出推理步骤,利用树搜索(如 MCTS/PUCT)加上验证器,找到最优推理路径。Karpathy 的 autoresearch 路线: 在"实验空间"里搜索。LLM 提出实验想法,系统自动运行训练,根据指标反馈(如 val_bpb)保留更好的实验。本质区别: 前者优化"想法/推理"(reasoning search) ,后者优化"实验/结果"(empirical experimentation)。但两者也存在一个共同特点:LLM均为无约束的假设生成机,负责提出可能的想法/实验。
Karpathy的AutoResearch与Gemini三层 Agent 架构后的相通设计逻辑
XuecWu32026-03-14 19:38
相关推荐
后端小肥肠2 小时前
别再花钱找人“养虾”了!腾讯版OpenClaw发布,零门槛把AI塞进微信!前端之虎陈随易2 小时前
Vite 8正式发布,内置devtool,Wasm SSR 支持AI_56782 小时前
基于智优达平台的Python教学实践:从环境搭建到自动评测IT_陈寒2 小时前
JavaScript开发者必备的5个高效调试技巧,90%的人都不知道最后一个!小浣熊喜欢揍臭臭2 小时前
【OpenSkills 使用三】多技能协同开发实战_小雨林2 小时前
Transformer模型、整体结构,编码器与解码器内部组成搭贝2 小时前
长沙韶光芯材|精准管控工时,夯实高端制造数字化管理根基bst@微胖子2 小时前
OpenCV 案例四【人脸识别】yhdata2 小时前
281.3亿元!医疗保健提供商数据管理软件市场稳步扩容,2032年有望冲刺468.5亿元