ASI-Evolve: 让AI自己搞研究、自己做实验、自己迭代进化 -- 这事靠谱吗?
你有没有想过一个问题:我们每天都在用AI做各种事情,但AI研究本身------设计更好的模型架构、清洗更高质量的数据、发明新的训练算法------还是得靠人类研究者一行行写代码、一轮轮跑实验、一遍遍分析结果。
这个过程有多慢?一个博士生探索一种新的注意力机制,可能要花几周写代码调试,跑一轮实验等几天出结果,分析完再改设计又是一两周。而人脑能并行探索的假设空间极其有限------你同时能认真思考的方案也就两三个。
那如果让AI来做这件事呢?不是让AI帮你补全几行代码那种浅层辅助,而是让AI 完整地走完"提出假设 - 设计方案 - 跑实验 - 分析结果 - 再提新假设"这个闭环?
上海交通大学 GAIR-NLP 团队(Pengfei Liu组)最近放出了 ASI-Evolve,一个面向 AI-for-AI 研究的 Agent 框架。1773 轮架构探索,发现了 105 个超越 DeltaNet baseline 的线性注意力架构;数据清洗 pipeline 平均涨 3.96 分,MMLU 涨了 18.64 分;RL 算法设计上,AIME24 直接从 20.00 拉到 31.67。
看到这些数的时候我的反应是:如果这些结果是可复现的,那这个方向的意义可能比大多数人想的要大。但也有几个地方让我皱眉------后面会聊。
📖 论文信息
- 标题:ASI-Evolve: AI Accelerates AI
- 作者:Weixian Xu, Tiantian Mi, Yixiu Liu, Yang Nan, Zhimeng Zhou, Lyumanshan Ye, Lin Zhang, Yu Qiao, Pengfei Liu(通讯作者)
- 机构:上海交通大学 / 上海人工智能实验室 / GAIR-NLP
- 日期:2026年3月31日
- 链接 :arXiv:2603.29640 | GitHub
🎯 这篇论文在解决什么问题?
AI 研发有三大核心支柱:数据、架构、算法。每个方向的进步都依赖反复的"假设-实验-分析"循环。问题在于,这个循环几乎完全依赖人力:
- 假设空间受限:人脑能并行探索的方案数量很少
- 实验周期长:一个想法从构思到验证可能需要数周
- 知识难以沉淀:跨迭代的经验积累依赖个人直觉,很难系统化传承
之前的工作已经在不同层面尝试过让 AI 参与科研。DeepMind 的 FunSearch(2023, Nature)用 LLM + 进化方法在函数空间搜索,解决了组合优化问题;AlphaEvolve(2025)更进一步,能跨越数百行代码进化整个代码库,优化了 Google 数据中心调度、TPU 电路设计,还打破了矩阵乘法 56 年的记录。
但这些工作有一个共同特点:它们解决的是有明确评分函数的优化问题。给你一个函数,能自动算分,然后迭代改进。
ASI-Evolve 想做的事更"野"一点------它瞄准的是 AI 研发本身,涉及架构设计、数据清洗流程、强化学习算法这些反馈信号复杂、评估维度多元的问题。用论文的话说,是要实现"closed-loop AI research"。
外链图片转存中...(img-wu8KJJLU-1776169725357)
ASI-Evolve 的整体定位:以AI的三大核心组件(数据、架构、算法)为研究对象,通过 Agent 闭环实现自动化发现,并验证了向数学和生物医学领域的可迁移性。
🏗 框架设计:五个模块如何协作?
ASI-Evolve 的核心是一个 learn-design-experiment-analyze 循环,由五个模块组成:

框架的五个核心模块:Cognition 注入先验知识,Researcher 生成候选方案,Engineer 执行实验,Analyzer 提炼分析报告,Database 存储进化历史。
逐个来看:
Cognition Base(认知库) -- 这是系统的"知识基础"。把人类的先验知识(设计原则、文献中的启发式规则)编码进来,用 embedding 索引,在生成假设时检索相关知识。说到这个,FunSearch 和 AlphaEvolve 都没有显式的知识注入模块,它们主要靠 LLM 自身的隐式知识。ASI-Evolve 加这个模块的动机很直接:AI 研发的搜索空间太大了,纯靠随机探索效率太低,需要用人类知识来"暖启动"。
Researcher(研究者) -- 从数据库中采样已有方案节点,检索 Cognition 中的相关知识,然后生成完整的候选程序,附带自然语言的设计动机说明。采样策略支持 UCB1、Random、Greedy、MAP-Elites。
Engineer(工程师) -- 执行候选程序的实验,返回结构化指标。支持 early rejection(墙钟时间限制和快速测试)。这个模块还包含静态检查 agent、调试 agent 和新颖性检查(过滤重复方案)。
Analyzer(分析器) -- 这个模块我觉得是 ASI-Evolve 跟前置工作拉开差距的关键。它不是简单地把实验分数传回去,而是把多维度的实验信号(多个指标、日志、traces)蒸馏成紧凑的、面向决策的分析报告,存起来供后续检索。这解决了一个实际问题:AI 研发的反馈不像圆填充问题那样只有一个标量分数,你需要理解"为什么这个架构在 MMLU 上涨了但在 HellaSwag 上掉了"。
Database(数据库) -- 持久化存储进化过的解决方案,包括动机、代码、结果、分析和元数据。支持灵活的采样策略。
🧪 实验一:架构设计 -- 1773 轮探索,105 个超越 baseline 的架构
这是论文篇幅最大、也是我认为最有说服力的一组实验。
任务:在线性注意力架构空间中搜索,baseline 是 DeltaNet(一种结合了 delta rule 更新的线性注意力模型,在 sub-quadratic 架构中表现不错)。
多阶段评估流程:
- 探索阶段:~20M 参数,2000步训练,10 个核心 benchmark 各 500 样本
- 验证阶段:~340M 参数
- 大规模验证:~1.3B 参数,100B token 训练
1773 轮探索之后,系统发现了 105 个超越 DeltaNet 的架构。从中选了 5 个代表性架构做大规模验证:
| 架构 | 开发集平均 | 泛化集平均 | 核心创新 |
|---|---|---|---|
| DeltaNet (baseline) | 55.76% | 44.74% | 固定分配 |
| PathGateFusionNet | 56.42% | 44.99% | 层级路由,本地/上下文处理动态切换 |
| ContentSharpRouter | 57.28% | 45.19% | 内容感知路由 + 可学习温度参数 |
| FusionGatedFIRNet | 56.73% | 45.40% | 独立 sigmoid 门替换 softmax 路由 |
| HierGateNet | 56.31% | 45.09% | 两阶段门控 + 动态可学习 floor 值 |
| AdaMultiPathGateNet | 56.89% | 45.23% | token 级控制,BalancedSparseGate |
最好的架构涨了 +0.97 个点------论文说这是"近 3 倍于近期人类设计改进的增益"。
坦率讲,0.97 个点的绝对值不算炸裂,但考虑到这是在 1.3B 规模、100B token 训练下的结果,而且是自动发现 的,这个效率还是挺能打的。更值得关注的是这些架构收敛出来的设计模式------自适应、多尺度路由,根据输入内容动态调整计算预算。这不是人类已知的"最优做法",而是系统自己摸索出来的方向。
🧪 实验二:数据清洗 -- MMLU 涨了 18 个点
应用到 Nemotron-CC 数据集(覆盖 STEM 领域的 672B token),训练 3B 参数模型,500B token:
| 指标 | 原始数据 | ASI-Evolve 清洗后 | 提升 |
|---|---|---|---|
| 平均分 | 40.17 | 44.13 | +3.96 |
| MMLU | 27.49 | 46.13 | +18.64 |
| CSQA | 20.31 | 39.12 | +18.80 |
| MedQA | 26.77 | 40.25 | +13.48 |
说实话,MMLU 涨 18 个点这个数让我愣了一下。后来想想,这是跟原始未清洗数据比,而不是跟精心人工清洗的版本比,所以这个基线选得比较低。不过 +3.96 的平均提升还是实打实的。
有意思的是,系统自动发现的清洗策略收敛到了以清洗为主的方案:有针对性地去除 HTML 残留、重复内容、PII,加上格式标准化和领域感知的保留规则。这跟人类的经验基本一致------数据质量提升,清洗比增强更管用。
🧪 实验三:RL 算法设计 -- 300 轮进化出三个新算法
在 4B 和 14B 参数模型上,基于 GRPO 框架做 RL 算法进化。300 轮之后发现了 3 个表现优异的算法:
14B 验证阶段结果:
| 指标 | 基线 | 进化后最优 | 提升 |
|---|---|---|---|
| AMC32 | 67.5 | 80.0 | +12.5 |
| AIME24 | 20.00 | 31.67 | +11.67 |
| OlympiadBench | 45.92 | 50.96 | +5.04 |
三个算法的核心创新各有不同:
- Pairwise Asymmetric Optimization:用 tanh 归一化的成对奖励差异 + 非对称裁剪 + 高影响梯度 Dropout(防止关键词过拟合)
- Budget-Constrained Dynamic Radius:基于百分位数的归一化 + 全局更新预算,数学上保证策略更新幅度在预定义范围内
这些不是简单的超参微调,而是算法结构层面的创新。我觉得这是整篇论文最让人兴奋的部分------AIME24 从 20 涨到 31.67,这在数学推理任务上是相当可观的提升。
🔬 框架对比与消融实验
跟谁比?Circle Packing 任务
先看一个标准 benchmark------26 个圆在 1x1 正方形中的 circle packing 问题:
| 框架 | 最优得分 | 步数 | 底层模型 |
|---|---|---|---|
| AlphaEvolve | 2.6359 | - | Gemini |
| OpenEvolve | 2.6343 | 460 | - |
| LoongFlow | 2.6360 | - | - |
| SkyDiscover | 2.6360 | 89 | - |
| ASI-Evolve | 2.63597 | 17 | GPT-5-mini |
17 步就达到 SOTA 级别的分数,而 OpenEvolve 需要 460 步。效率差了一个数量级。

框架对比实验(Qwen3-32B):ASI-Evolve(蓝色)在前 50 步就冲到接近最优区域,GEPA(紫色)稍慢但最终接近,OpenEvolve(青色)明显落后且方差更大。
底层模型影响

Qwen3-32B 和 GPT-5-Mini 在中后期的进化趋势高度一致,说明框架设计比底层模型选择更重要。这个结论对实际部署很有参考价值------不一定非得用最强的闭源模型。
采样策略对比

UCB1 策略在有认知先验时表现最佳,能最快到达高分区域;Random 起步快但后劲不足;MAP-Elites 保持多样性但在强先验下反而更慢。
UCB1 + GPT-5-mini 的组合在 17 步就发现了 2.63597,而 MAP-Elites 需要 79 步。这说明在有好的先验知识注入时,exploration-exploitation 的权衡比纯粹的多样性保持更重要。
消融实验:Cognition 和 Analyzer 各管什么?

消融实验清晰地展示了两个核心模块的互补作用:Cognition 负责"快启动",Analyzer 负责"持续爬坡"。
这张图信息量很大:
去掉 Analyzer :系统靠 Cognition 能获得不错的初始分数,但之后进入长时间的平台期 ,改进幅度很小。这说明 Analyzer 的结构化反馈对于持续突破至关重要。
去掉 Cognition:起步更慢,早期改进不稳定,但系统通过自主试错最终还能爬上来。这说明系统的进化能力并不完全依赖人类先验------只是效率低很多。
两个组件的功能互补很清晰:Cognition 解决冷启动,Analyzer 解决持续进化。
🔬 跨领域迁移:药物-靶点相互作用预测
论文还做了一个有意思的验证------把架构搜索能力迁移到生物医学领域。从 DrugBAN(药物-靶点相互作用预测的 baseline)出发进化:
| 任务场景 | 指标 | DrugBAN | ASI-Evolve | 提升 |
|---|---|---|---|---|
| 域内(BindingDB) | AUROC | 94.15 | 96.06 | +1.91 |
| 域内(BindingDB) | F1 | 86.89 | 89.84 | +2.95 |
| 冷启动-未见药物 | AUROC | - | - | +6.94 |
| 冷启动-未见蛋白 | AUROC | - | - | +3.56 |
| 冷启动-两者都未见 | AUROC | - | - | +4.36 |
冷启动场景涨了 6.94 个点的 AUROC,这个提升幅度在生物医学领域是相当不错的。发现的最优架构引入了 Sinkhorn 注意力(基于最优传输的双随机约束)和 Top-k 稀疏门控------这些设计人类研究者不一定能想到,但从机制上看确实合理。
🤔 我的判断
亮点:
-
三条线同时验证,不是只在某个子任务上刷分。数据、架构、算法三个方向都跑通了,而且都有可观的提升。
-
Analyzer 模块的设计是真正有洞察的。之前的进化框架(包括 AlphaEvolve)主要靠标量分数做反馈,ASI-Evolve 把多维度实验信号压缩成决策导向的分析报告再反馈,这对于复杂的 AI 研发任务来说更合理。
-
底层模型可替换性好。Qwen3-32B 和 GPT-5-mini 最终效果接近,说明框架设计才是核心,不是靠堆最强模型。
-
消融做得扎实,两个核心组件的功能互补关系交代得很清楚。
让我皱眉的地方:
-
架构搜索的起点选择。用 DeltaNet 作为 baseline 然后搜索线性注意力空间------这个搜索空间的定义本身就包含了大量人类先验。系统并没有从零开始"发现"线性注意力这个方向,它是在人类已经框定好的空间里做局部优化。所谓"AI accelerates AI",准确说应该是"AI 在人类指定的方向上加速搜索"。
-
数据清洗实验的 baseline 问题 。跟原始未清洗数据 比涨 18 个点,但更有意义的对比应该是跟人类设计的清洗 pipeline 比。论文没给这个对比,这让数据的说服力打了折扣。
-
计算成本披露不足。1773 轮架构探索、300 轮 RL 算法进化------每轮需要多少 GPU 时间?总计花了多少 API 调用费?这些信息对于判断"AI 加速"是否真的比人类更高效至关重要,但论文里几乎没提。如果 1773 轮探索花了等价于一个团队半年的 GPU 预算,那"加速"的含金量就要重新评估了。
-
circle packing 任务的位置有点尴尬。这个任务更适合展示进化框架的基础能力,但跟"AI-for-AI"的核心叙事关系不大。用它跟 AlphaEvolve 比步数效率,我觉得有点取巧------因为 ASI-Evolve 有 Cognition 模块做知识注入,起点就比别人高,步数少不完全说明框架更好。
-
"closed-loop AI research"这个说法偏大。现在的系统还是在人类定义好的评测框架下做优化。真正的闭环 AI 研究需要 AI 能自己发现问题、定义研究方向、设计评测标准------这些 ASI-Evolve 都还做不到。
💡 工程启发
如果你也在做类似的 AI 自动化研发系统,这篇论文有几个设计决策值得参考:
-
知识注入和进化能力要分开设计。Cognition 管冷启动效率,Analyzer 管持续改进能力。消融实验证明两者缺一不可。
-
反馈信号要做"蒸馏",不要直接甩数字。多维度的实验结果需要经过分析提炼才能有效指导下一轮假设生成。这个思路在任何涉及复杂评估的自动化系统中都适用。
-
采样策略的选择取决于先验质量。先验强就用 UCB1(快速利用),先验弱就用 Random 或 MAP-Elites(广泛探索)。
-
多阶段评估是省计算的关键。20M -> 340M -> 1.3B 的三阶段筛选,大部分方案在小规模就被淘汰了,避免在大规模上浪费资源。
📝 总结
ASI-Evolve 给出了一个比较完整的 AI-for-AI 研究框架的设计范式,在架构、数据、算法三个方向都展示了可观的自动化发现能力。Cognition + Analyzer 的双模块设计是核心创新,消融实验验证了其有效性。
但"AI 加速 AI"这个叙事目前还是偏理想化的。系统依然需要大量人类先验来定义搜索空间和评测标准,计算成本也缺乏透明度。它更像是一个高效的自动化研发助手,而不是一个能独立做研究的 AI 科学家。
不过话说回来,从 FunSearch 到 AlphaEvolve 再到 ASI-Evolve,这条线的进展速度是肉眼可见的。如果你在做模型架构搜索、数据 pipeline 优化或者 RL 算法设计,这个框架的思路------特别是 Analyzer 的设计------值得认真看看。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我