Karpathy的AutoResearch与Gemini三层 Agent 架构后的相通设计逻辑

  1. Karpathy刚开源的 autoresearch,跟 Google DeepMind 的三层 Agent 架构不谋而合。Google 论文里,Gemini Deep Think 负责提假设。autoresearch 里,agent 读 program.md 生成假设。LLM 都作为无约束的假设生成机。(这样做的本质在于发挥LLM输出的多样性,充分利用其创意能力)

  2. 之后,两个工作其实都设计了一套剪枝的流程。Google 论文中的 PUCT 算法管理搜索树,在 600 个候选节点中,80% 会被自动剪掉。autoresearch 的剪枝逻辑是设定固定的五分钟时间预算,超时的会被淘汰。人类只需编写 program.md 文件,而剪枝过程是自动运行的。

  3. 形式化验证,并预期得到真实反馈。Google 论文里,每走一步就拿数值积分的精确结果做比对。autoresearch 里,验证指标是 val_bpb,即为验证集上的 bits per byte,数字越低越好,和词表大小无关,架构怎么变都能公平比较。

  4. DeepMind 路线: 在"思维空间"里搜索。LLM 先提出推理步骤,利用树搜索(如 MCTS/PUCT)加上验证器,找到最优推理路径。Karpathy 的 autoresearch 路线: 在"实验空间"里搜索。LLM 提出实验想法,系统自动运行训练,根据指标反馈(如 val_bpb)保留更好的实验。本质区别: 前者优化"想法/推理"(reasoning search)后者优化"实验/结果"(empirical experimentation)。但两者也存在一个共同特点:LLM均为无约束的假设生成机,负责提出可能的想法/实验。

相关推荐
疯狂的布布几秒前
深度学习安装包运行时崩溃解决
人工智能·深度学习
Deepoch1 分钟前
Deepoc VLA开发板:基于边缘语义计算的除草机器人决策系统
人工智能·机器人·开发板·具身模型·deepoc·除草机器人
voidmort3 分钟前
12. 为什么评估(Evals)比训练更重要
人工智能·深度学习·机器学习
易舟云财务软件6 分钟前
财务 AI Python 实战:从自动化报表到智能风控的应用场景
人工智能·python·自动化
武雄(小星Ai)6 分钟前
一个模型干五件事:拆解 NVIDIA Cosmos 3 的物理 AI 全模态架构
人工智能·python·agent
AIkk8611 分钟前
班级群学习资料分享指南:工具推荐与实践
大数据·人工智能·html
兆。14 分钟前
简历高光_Agent_RAG项目描述
人工智能·langchain
Upsy-Daisy16 分钟前
Hermes Agent 学习笔记 01:一个会记忆、会学习、能长期运行的 AI Agent
人工智能·笔记·学习
小雨下雨的雨16 分钟前
五子棋AI在鸿蒙PC Electron上的实现的原理与实践
人工智能·游戏·华为·electron·harmonyos·鸿蒙
AI科技星17 分钟前
基于奇合数边界的离散解析数论与双螺旋宇大统一体系(中英文双语纯净终稿)
人工智能·线性代数·架构·概率论·学习方法