Transformer作者开源进化计算新框架,样本效率暴增数十倍!

进化计算迎来革命性突破,让大语言模型自己写代码优化自己,效率飙升。

2017年,Transformer架构的诞生彻底改变了深度学习领域,为当今大语言模型的蓬勃发展奠定了坚实基础。作为这一划时代论文的作者之一,Llion Jones如今带着他的初创公司Sakana AI再次带来突破性成果------开源框架ShinkaEvolve,为进化计算装上了"加速引擎"。

这一全新框架实现了样本效率的数十倍提升,同样的任务,以前需要上千次评估,现在仅需150个样本就能完成。

论文链接:

arxiv.org/abs/2509.19...

代码 链接

github.com/SakanaAI/Sh...

进化计算的效率瓶颈

在传统进化计算中,大语言模型寻找问题最优解的过程异常繁琐。以谷歌的AlphaEvolve为例,模型需要首先生成一个猜想,然后运行实验验证、吸取教训,再提出更好的猜想......如此循环往复,逐步逼近真理。

这种方法即使是最简单的实验也要消耗巨大资源,计算成本昂贵且耗时严重,成为制约进化计算应用的主要瓶颈。

三大创新技术突破瓶颈

ShinkaEvolve框架针对进化计算的固有痛点,通过三项核心架构创新,实现了性能与效率的双重飞跃。

  • 创新一:平衡探索与利用的亲本抽样技术

该技术通过分层策略与多方法融合保障进化方向的有效性。框架采用"岛群模型"将种群分为独立子群并行进化,子群之间定期迁移知识,同时保留最优解以保障独特性。

具体实施中,系统在抽样时先均匀抽取岛群ID,再结合top-K优质解与随机样本选取亲本及启发程序,并通过幂律抽样与加权抽样的多策略模式,巧妙平衡已知的良好解决方案和新思路的探索。

  • 创新二:代码新颖性拒绝抽样

为减少LLM生成重复或低新颖性变异体的无效计算,框架引入了嵌入相似度筛选+LLM判优的二级过滤机制。

系统首先通过嵌入模型对程序可变异部分进行编码,计算与现有程序的余弦相似度。如果超过阈值(如0.95),则调用额外LLM评估其语义独特性,最终仅保留真正具有新颖性的候选解,大幅提升探索效率。

  • 创新三:基于多臂老虎机的LLM集成选择策略

针对不同LLM在任务与进化阶段的性能差异,框架基于UCB1算法动态调度模型。每个LLM都设有两个评价指标:记录使用次数的访问计数器,和评价预期表现的得分估计。

当模型产生新的改进时,系统通过对比改进幅度即时更新评分,借助指数函数对显著改变强化贡献权重,实现动态选择当下最合适的LLM。

多领域实验验证卓越性能

研究人员在四个不同领域设置了对比实验,全面验证ShinkaEvolve框架的性能表现。

  • 数学优化:样本效率大幅提升

在"将26个圆放置在一个单位正方形内,使半径之和最大化"的数学优化问题上,ShinkaEvolve仅需150次评估,而AlphaEvolve则需要数千次评估,样本效率提升显著。

整个进化过程呈现出三个清晰阶段:快速发现基本半径优化策略的快速改进阶段、持续获得增量收益的探索阶段,以及最终的收敛阶段,成功突破了空间利用率与半径总和的平衡瓶颈。

  • Agent设计:推理能力显著增强

在针对2024年AIME竞赛的30道数学推理问题的实验中,ShinkaEvolve框架设计显著优于模型基线,包括简单的单查询代理和复杂的多数投票方法。

仅7次LLM查询即产生最大性能,在低污染的2023年和未见过2025年AIME竞赛题上同样表现稳定,且适配gpt-4.1-mini、o4-mini等多种模型。

  • 竞争性编程:排名显著提升

在ALE-Bench竞争性编程基准测试中,ShinkaEvolve在动态规划、图论和组合优化等问题上展现出强大解决能力。

10道AtCoder竞赛题的平均得分提升2.3%,其中ahc039任务从第5名升至第2名,显示出竞赛获奖潜力。值得注意的是,相关代码的优化多聚焦细节改进,并未依赖大规模重构。

  • LLM训练:负载均衡效果优化

在混合专家负载均衡损失函数的任务评估中,ShinkaEvolve产生的新负载平衡损失函数在7个下游任务上均表现出更高的准确率、更低的困惑度。随着正则化系数λ增大,优势更加显著。

讨论

本研究提出ShinkaEvolve进化框架,通过提升样本效率和开源可访问性,解决了大型语言模型驱动科学发现中的关键局限。该框架在四个领域取得顶尖成果:圆形填充(150次评估,实现数量级提升)、复杂AIME推理支架、ALE-Bench算法改进,以及创新的专家混合负载均衡方案。

局限性。当前实现采用固定配置,对探索-开发平衡的自动控制有限,且不同领域需求各异。任务定义需人工专家介入以设定目标函数和评估标准。该框架仅适用于具有明确数值目标的问题,限制了其在多元评估领域的适用性。

未来方向。通过大型语言模型任务生成实现自动化任务定义,有望赋予系统更高自主性,并开拓未探索领域的应用场景。向真正开放式目标的过渡------即系统自主生成目标------代表着极具吸引力的前沿领域。自指性优化与在线元学习为持续提升探索能力提供了契机。

广泛影响与伦理考量。ShinkaEvolve开源版本进一步推动了先进进化优化的普及化进程,使此前无法接触专有系统的研究者和从业者得以使用。该框架卓越的样本效率降低了资源受限环境的计算门槛。然而大规模LLM应用产生的API成本可能形成经济壁垒,潜在制约普及化目标的实现。

相关推荐
晓宜3 小时前
Java25 新特性介绍
java·python·算法
却道天凉_好个秋3 小时前
OpenCV(三):保存文件
人工智能·opencv·计算机视觉
fyakm3 小时前
GAN入门:生成器与判别器原理(附Python代码)
rnn·深度学习·神经网络
琼羽1094 小时前
第十七周-通用量子门与Deutsch-Jozsa算法
算法·量子计算
旺小仔.4 小时前
位运算专题
算法
xwl12124 小时前
10.6 作业
数据结构·算法
胡小禾6 小时前
JDK17和JDK8的 G1
jvm·算法
fyakm6 小时前
RNN的注意力机制:原理与实现(代码示例)
rnn·深度学习·神经网络
胖咕噜的稞达鸭8 小时前
算法入门:专题攻克一---双指针(3)有效三角形的个数 查找总价格为目标值的两个商品(剑指offer题目)
算法