AI 不睡觉，但它比你更会做实验

摘要：AutoResearch 是一种让 AI 替你 7×24 自动跑实验的工程范式，它通过持续提出假设、改代码、评估结果和只进不退的棘轮机制，让模型和业务系统在无需人工通宵调参的情况下不断演化。本文从 Karpathy 的开源实践、与传统 AutoML/Agent 的区别、最新生态进展、评估指标以及在 TikTok 风控中的落地方案，全面展示"不睡觉的研究员"如何改变实验工作的方式。

你有没有过这种体验------

改一个模型参数，跑一晚上，第二天早上看结果，发现没用。再改，再跑，再没用。如此循环，一周过去了，进步微乎其微。

这不是你的问题。这是"人做实验"的天然瓶颈：你需要睡觉，你会分心，你会重复踩坑。

但如果有一个东西，能帮你 7×24 小时不间断做实验，每跑完一轮自动判断效果，好的留下、坏的扔掉，然后继续下一轮------你会不会觉得，世界突然公平了一点？

这个东西已经存在了。它叫 AutoResearch。

一、它是什么？一句话说清楚

AutoResearch 的本质是一套"自动做实验"的工程范式：

让 AI 代替你跑"提出假设 → 动手修改 → 评估效果 → 留好的、扔坏的"这个完整循环，无限次。

它不是 ChatGPT 那种"问一次答一次"的工具。它是一个持续优化系统，目标不是回答你一个问题，而是让你的代码、模型、策略，变得越来越好。

二、谁开的头？Karpathy 用 100 行代码验证了这件事

2026 年 3 月，OpenAI 前研究总监 Andrej Karpathy 开源了 autoresearch 项目（GitHub 76k+ Star），用极简的设计证明了这件事能跑通。

他的设计只有四个关键要素：

1. 一个"沙盒"： Agent 只能改一个文件（train.py），里面是完整的 GPT 模型代码。架构、超参、数据处理，随便改。

2. 一把"尺子"： 只看一个指标------val_bpb（验证集 bits per byte）。降了就是好，没降就是差。

3. 一个"计时器"： 每次实验限时 5 分钟。不管你怎么改，评估成本恒定，结果直接可比。

4. 一个"棘轮"： 用 Git 做记忆。改好了 commit，改差了 reset。性能只进不退。

结果如何？

Agent 自主运行两天，跑了约 700 次实验，找到了约 20 项人类专家此前未曾发现的有效改进，把模型达到 GPT-2 级别性能所需的时间缩短了 11%。

两天，700 次实验，人类专家没试过的 20 个改进。 这就是机器不睡觉的威力。

三、它和你印象中的 AI 工具有什么不同？

你可能会想：这跟 AutoML 有什么区别？跟 LangChain 那套 Agent 又有什么不同？

三句话理清：

AutoML 只在你划定的"搜索框"里找最优参数。AutoResearch 的 Agent 可以改代码逻辑、重构算法------探索空间是完全开放的。
传统 Agent（如 ReAct）做完一次任务就收工。AutoResearch 是对一个"活系统"做无限轮迭代，目标是系统本身的进化。
自进化智能体 是个大概念。AutoResearch 是它的一种高度工程化的落地方案------有明确的评估指标、有 Git 棘轮机制、有固定预算约束。

一句话总结：AutoResearch 把 AI 的角色从"回答问题"推到了"持续改进一个系统"。

四、两个月过去了，这个方向跑出了什么？

Karpathy 之后，这个思路快速分化出三条线：

线一：社区衍生。 有人做了 macOS 版、Windows 版、AMD 版，降低硬件门槛。pi-autoresearch 加了防重试抖动逻辑，避免 Agent 在死胡同里反复撞墙。

线二：Agent 优化 Agent。 LangChain 创始人 Harrison Chase 把目标从"优化训练代码"换成了"优化 Agent 本身的逻辑代码"，评估换成 LangSmith 的评估套件。这打开了一个新思路------用 Agent 来让 Agent 变强。

线三：学术论文全自动。 AutoResearchClaw 把"发一篇论文"拆成 23 个阶段的流水线，支持人机协作审批，内置反幻觉和引用一致性检查。从构思到成文，全链路自动化。

与此同时，工程框架也在成熟：

微软 MAF（从 AutoGen 演进）：多智能体协作 + 图结构工作流 + 原生可观测性
CrewAI：角色扮演 + 可视化编排 + 企业级管理平台
LangGraph：确定性图结构 + 支持暂停/恢复/回溯 + 状态可视化

这些框架解决的是同一个问题：让 AutoResearch 从"实验室玩具"变成"生产级工具"。

五、怎么评估它好不好使？两个核心指标

当你真的要在团队里推这件事时，老板一定会问："效果怎么衡量？"

指标一：单位时间有效改进率（VIR_T）

公式：把每次有效改进带来的收益加总，除以总耗时。

它衡量的是：这个 Agent "找方向"的效率有多高。跑 100 次实验，有 3 次还是 30 次是真正有效的？这个比率决定了系统的探索效率。

指标二：单位成本真实收益（PPD）

公式：最终指标提升幅度 ÷ 总成本（算力 + API + 人力）。

它回答的是商业问题：花这些钱跑 AutoResearch，值不值？

有个参考------Deep Researcher Agent 项目把 7×24 小时运行的成本压到了每天 0.08 美元，30 天内让目标指标提升了 52%。这种 PPD，大多数团队都会愿意投入。

六、落地：我在风控场景下打算这么用

说了这么多，落到我自己的工作里------TikTok 风控策略迭代------AutoResearch 的适配性极强。

风控本质上就是不断试错和优化的过程：调规则阈值、试新特征、改模型结构。这恰恰是 AutoResearch 最擅长的。

我设计的闭环是这样的：

第一层：可控沙箱。 一个与生产隔离的离线评估环境，数据脱敏但分布接近真实。Agent 操作的是一个 Git 仓库，里面装着规则脚本、模型配置、特征列表。

第二层：多 Agent 协作。

研究员 Agent：分析历史数据和反馈，提出优化假设（比如"试试加入用户注册时长特征"）
编码员 Agent：根据假设修改策略文件
评估员 Agent：跑离线回测，计算 AUC、拦截率等指标

第三层：只进不退。 和 Karpathy 一样，只有统计显著提升的修改才 commit。失败的记入经验库，避免重复犯错。还有"冷却机制"------刚失败的方向，N 轮内不再碰。

第四层：人机协作------绝不能全自动。 风控是高风险场景，100% 自主绝不可接受。我在两个关键节点设了"门槛"：

新假设生成后 → 人工审批
评估通过、准备部署前 → 人工审批

所有操作留不可篡改的审计日志，每次有效改进自动生成可解释性报告，线上保留一键回滚能力。

这套设计的目标很明确：把风控团队从重复的"调参-跑实验-看结果"中解放出来，聚焦在更有创造性的策略制定上。

七、下周就能验证的最小实验

如果你也想试，不用搞那么复杂。给你一个"下周就能跑"的验证方案：

选一个简单任务------比如优化一个 Python 函数的执行速度
用 pi-autoresearch 或者自己写一个简化脚本，实现"修改 → 运行 → 评估 → 回滚"循环
定义清晰的评估函数（执行时间，多次取均值）
让它跑一夜（8 小时）
第二天看：跑了多少次实验？有效改进几次？性能提升了多少？

即使结果不炸裂，你也能从 Agent 的 commit 历史里看到它尝试了什么。失败的探索也是有价值的信息。

写在最后

AutoResearch 的意义不在于"AI 替代了研究员"。它的意义在于：

它把"研究"这件事，从一个依赖灵感和耐心的智力活动，变成了一个可自动化、可规模化、7×24 运行的工程系统。

你不用再和时间赛跑了。让 Agent 替你跑。你只需要在早上醒来时，看看它昨晚找到了什么新东西。

这种感觉，像是终于有了一个不睡觉的实习生------而且它比大多数实习生聪明。

如果这篇对你有启发，欢迎转发给同样在"调参炼丹"中痛苦的同事。也欢迎留言聊聊：你会把 AutoResearch 用在什么场景？