前不久写过一篇文章:《AI浪潮下的"价值洼地"?深度剖析Google I/O 2025后的谷歌困境与突围》,深度分析了AI时代对谷歌原有商业模式的冲击,以及谷歌突围的路径。今天继续聊一下谷歌在AI上的一些技术突破。
网上很多的固有认知是AI大模型更多的是在模仿,很难去创新。真的是这样么?这篇文章来聊聊谷歌DeepMind开发的AlphaEvolve项目,看完相信你会有自己的判断。
AlphaEvolve项目要挑战的是一个世界级难题:算法创新。算法的重要性不言而喻,它是现代科学与工程的基石,从你的手机信号处理,到我们每天刷的短视频推荐,背后都是算法在驱动。
然而,要探索出一个全新的、高性能的算法,或者是对现有的算法进行极致的优化,却是一件极其艰难的任务。因为它既受限于数学家和特定领域专家的大量实验和试错,耗时耗力,还受限于研究者的认知边界及所采用的研究方式。经常会出现大量资源长周期的投入后却无任何成果的情况。众所周知,华为在全世界建了很多的实验室,招募了大量的顶尖数学家。
面对这个挑战,谷歌想了个妙招:能不能让AI自己去探索算法呢?
于是,AlphaEvolve诞生了,它的巧妙之处就在于将强大的AI大模型和经典的进化算法结合在一起,创造了一个会自己"编程"的智能体。简单来说,AlphaEvolve就像一个数字生命,它能自己写代码、自己测试、再根据结果好坏不断地迭代优化。
要理解它是如何做到的,咱们先来了解一下AlphaEvolve的"进化引擎" -- 进化算法。
传统进化算法的不足
什么是进化算法,维基百科上的解释是:进化算法启发自生物的演化机制,模拟繁殖、突变、基因重组、自然选择等演化过程,对优化问题的候选解做演化计算的方法。

官方解释可能比较拗口。简单来讲,进化算法其实就是模仿了大自然的"优胜劣汰"机制。它通过模拟进化论中的 "种群" 、 "遗传" 和 "变异" 等概念来寻找算法的最优解。整个过程我通过维基百科的讲解抽象了一下,可以分解为以下几个核心步骤,它们会不断循环,直到找到满意的答案:
第1步:初始化种群
首先,我们需要设定一个要解决的问题,比如说"设计一个最省油的飞机机翼形状"。算法会随机生成一大堆各种各样的机翼设计方案。这个初始的、多样化的方案集合,就叫做"初始种群"。每一个设计方案,就是一个"个体"。
第2步:适应度评估
接下来,我们需要一个评判标准来衡量每个机翼设计方案的好坏。这个标准就是"适应度函数(比较像强化学习中的奖励函数)"。在这里,适应度可以简单定义为"省油的程度",当然在真实的场景中,可能还要考虑机械工程算法中的各种其它因素。我们通过计算机模拟或风洞测试来评估每一个机翼方案的油耗,油耗越低的,其"适应度"就越高。
第3步:选择
这是"优胜劣汰"的关键环节。算法会根据适应度分数来选择"优胜者"。适应度高的机翼方案(更省油的)有更高的概率被选中,进入下一步的"繁殖"阶段。而那些适应度低的方案(非常耗油的)则有很大概率被淘汰。
第4步:繁殖
从"优胜者"中,我们可以随机挑选"父母"进行配对。然后,模拟基因的"交叉",将两个父代方案的某些特征结合在一起,创造出新的子代方案。比如,将A方案的翼尖设计和B方案的翼根设计融合,可能会产生一个全新的、性能更好的C方案。这个过程的目的是继承并组合优秀方案的优点。
第5步:变异
为了防止所有方案都变得越来越相似而陷入局部最优(比如所有机翼都长得差不多,但并非全局最好),算法会引入"变异"。它会随机地对新生成的子代做一些微小的、随机的改动。比如说,稍微改变一下机翼的曲率或者厚度。大部分变异可能是有害的,但偶尔一次成功的变异,可能会创造出前所未有的、性能超强的"超级个体",带来突破性的进展。
通过以上步骤可以看出,进化算法具有非常强的普适性,只要问题能被编码 (用数据描述),且结果能被量化(能打分),它就能上场。比如以上机翼案例所涉及的工程设计与优化、还有生物制药、物流规划等领域,都有进化算法的应用。
然而,传统的进化算法有一个天生的缺陷。它虽然模仿了进化的"形",却没有学到进化的"神"。它的核心问题在于 -- 创新效率太低,极度依赖运气。
如何理解呢?我用网上看到的一个有趣的举例来说明。传统的进化算法就像一个蒙着眼睛的厨师来做菜。
- 初始化种群,就是厨师在厨房里随手抓一大把食材。他可能抓到面粉、酱油,也可能抓到洗洁精。
- 交叉,就是把两盘菜随机混在一起。
- 变异,就是随手往菜里撒一把调料,可能是盐,也可能是沙子。
这位厨师虽然是个好舌头(适应度评估),能尝出哪盘菜好吃一点(选择),但他对烹饪一无所知。他只能靠着"瞎猫碰死耗子"般的尝试,极其缓慢地、偶然地提升厨艺。
这就暴露了传统进化算法的几个致命伤:
- 创新的"盲目性": 无论是初始方案的生成,还是后续的"变异",都有很多随机的成分。它没办法做到和人类专家一样,拥有扎实的理论基础,知道往哪个方向尝试更有可能成功。这种盲目的探索,在解决简单问题还行,一旦面对复杂算法的创新,就如同大海捞针,效率极低。
- 缺乏"举一反三"的能力: 传统进化算法是一次性的。每次面对新问题,它都要从零开始随机探索。它无法从过往解决问题的经验中学习,更不能把解决问题A的知识迁移到B问题的解决思路上。
- 对"起跑线"的严重依赖: 如果最开始随机生成的那批初始解法质量比较差,那后续的进化过程将会非常漫长且痛苦,甚至可能永远也进化不到我们想要的高度。
简单来说,传统进化算法是个优秀的优化工具 ,但不是个高效的发现工具,而这些传统算法的天花板,恰恰是AlphaEvolve想要用AI大模型来打破的。它是如何做到的呢?
解构AlphaEvolve:核心技术支柱
AlphaEvolve的核心创新之一是它利用Gemini系列模型作为主要的算法变异和生成引擎。这就相当于在进化算法中引入了一个领域专家,指导着算法在正确的方向上一路狂奔,这恰恰解决了上文说到的传统进化算法的致命伤。
举个例子,传统进化算法在生成新的优化算法时,往往使用预定义的、随机的算子。如基因突变(随机改变一个值或符号)、交叉(交换两段代码)等基于一些固定的规则。这是因为传统进化算法一般是由代码语法树构成的巨大、离散的语法空间中盲目搜索,这导致的后果是大部分的变异操作可能直接破坏掉程序的正确性。
而AI大模型驱动的交叉和变异的算子则是由Prompt动态生成的。这带来的优势是大模型可以利用庞大的先验知识在语义空间理解程序后,再根据Prompt的引导创造性的重写或改进代码。
当然,这些Prompt也不是随意的编写,而是先根据适应度评估选择"种子(也就是更优的选项)"后,再利用这些"种子"构建Prompt,以指导大模型生成新的、更好的程序。
这个过程的核心思想是,不是向大模型提出一个宽泛的问题(例如,"请给我一个更好的排序算法"),而是为其提供一个精心策划、包含丰富上下文的提示,引导大模型进行有针对性的、高质量的"变异"和"交叉",从而实现算法的进化。
虽然官方没有具体描述相关的实现细节,但一个开源的社区项目OpenEvolve却复现了AlphaEvolve的部分成果。从这个项目中,我们可以大概了解到AlphaEvolve构建Prompt的具体细节和步骤:
1. 从"程序数据库"中选择种子
首先,AlphaEvolve每次评估完后,并非只选择得分最高的那个程序。为了平衡探索和开发,进化算法会先从存储了所有历史程序及评分的"程序数据库中",通过一个复杂的采样策略来挑选"种子"。这个策略通常会选出两种类型的程序:
- 父本程序(Parent Program): 这是本次进化的主要基础。通常会选择一个得分最高的程序。它将是新程序直接修改的蓝本。
- 灵感程序(Inspiration Programs): 这是AlphaEvolve方法的精髓之一,算法会额外挑选一个或多个其他程序作为"灵感"。这些灵感程序可能具备一些独特的优点,例如在某个特定的测试用例上表现突出、代码结构新颖、有着与父本程序截然不同的解决思路等。
通过结合父本与灵感程序,AlphaEvolve可以鼓励大模型进行类似生物学中的"基因交叉",即将不同优秀个体的优点融合在一起,而不仅仅是单个个体上进行微小的编译。
2. 构造"上下文丰富"的Prompt
选出种子程序后,AlphaEvolve会将它们与大量其它相关信息打包,组合成一个完整的、上下文极为丰富的Prompt。这个Prompt一般包括以下几个部分:
- 系统指令: 这部分其实就是给大模型的操作手册,我们平时让大模型完成一个复杂的任务时都喜欢这么做。比如,会明确指示大模型需要扮演的角色、以及它需要完成的任务和输出格式。
- 种子程序源码: 将父本程序和灵感程序的源码完整的放入Prompt中,并指明哪些是基础的需要修改的蓝本程序,哪些指示需要从中汲取灵感的程序。
- 背景知识: 这是非常关键的一环,用户可以提供任何有助于大模型理解问题的信息,例如问题描述、相关文献、历史评估结果等等。
通过以上两步构造好Prompt后,Gemini就会利用其强大的代码理解和生成能力,输出一个或多个算法的优化方案。由于Prompt中包含了丰富的成功案例和问题背景,大模型的输出不再是像传统进化算法那样随机猜测,而是基于上下文的、有根据的创造性的代码修改。
接着,AlphaEvolve会自动应用这些修改,生成新的完整程序。然后将其送入"评估器"进行打分。这些新生成的、带有新评分的程序会被添加回"程序数据库中"。成为下一轮进化的潜在"种子"。
通过这样选择->构建Prompt->生成->评估的闭环,AlphaEvolve就成功将AI大模型的强大能力赋能给了传统进化算法,既很好的利用了进化的思想,又让进化的过程变得更加高效和准确。引用官网展示的工作流:

说到高效,AlphaEvolve还采取了一个技巧,就是将不同的Gemini模型应用在工作流的不同环节,例如使用Gemini Flash进行广泛、快速的的候选代码生成,而使用Gemini Pro进行更深入、更高质量的精细调整,这样就能有效平衡进化过程中的探索与利用,同时保障效率与稳定性。
AlphaEvolve的实践应用:能力展示
AlphaEvolve的强大能力不仅仅是体现在上文描述的理论层面上,而是已经通过一系列在数学基础研究和谷歌实际业务中的应用得到了验证。
在数学基础研究中取得的成果包括矩阵乘法的改进、接吻数问题等,由于日常工作中用的少,我也不是很懂,但其已经证明了其发现全新数学知识的能力。
在谷歌的实际业务中,AlphaEvolve也发挥了巨大的实用价值,据官方公开的资料,已知的几项成果包括:
- 为谷歌全球数据中心"省钱" :谷歌的Borg系统,是掌管全球海量数据中心的"超级大脑",负责调度天文数字般的计算任务。AlphaEvolve为Borg发现了一种更高效的调度算法。这个由AI设计的算法代码非常简洁,效果却立竿见影,已经帮助谷歌在全球范围内节省了约0.7%的计算资源 。别小看这个数字,对于谷歌的体量来说,这背后是巨大的成本节约 。一个更重要的优点是,AI给出的解决方案是人类工程师能读懂的代码,方便理解、调试和部署。这不再是一个"黑盒",而是可以与人类专家无缝协作的"智能伙伴"。
- 设计下一代AI芯片 (TPU): 在谷歌自研的AI芯片TPU的设计中,AlphaEvolve也成了硬件工程师的得力助手。 它为一个关键的算术电路,提出了一套Verilog(硬件描述语言)的重写方案。新方案在功能完全等同的前提下,移除了不必要的逻辑,能有效降低芯片面积和功耗。这项AI提出的改进,已被集成到一款即将推出的TPU中。它证明了AI能用硬件工程师的"语言"沟通,有望极大加速未来专用芯片的设计进程。
- 让AI自己变得更快 :AlphaEvolve不仅能优化外部系统,还能优化AI模型自身,让它们跑得更快。在AI训练上 , 它为Gemini模型的一个关键计算核心,找到了更高效的计算方法,实现了23%的局部加速 , 最终让Gemini模型的整体训练时间缩短了1%。在动辄耗资千万、数亿的大模型训练中,这1%的效率提升,意味着实打实的成本节约。在AI推理上 , 它甚至敢于挑战由编译器深度优化的底层GPU指令------一个连人类专家都很少直接修改的"禁区"。它为Transformer模型常用的FlashAttention核心,带来了高达30%的推理加速。这意味着用户在享受Gemini服务时,响应可以更快,成本也可以更低,在大模型极其内卷的当下,这可以让Gemini在持续快速进化的过程中慢慢拉开和其它AI大模型的差距。

写在最后:从"超级模仿家"到"灵感合伙人"
现在,我们回到最初的那个问题:AI真的只会模仿吗?
AlphaEvolve用一系列惊艳的成果,给出了一个清晰的答案:AI正在从一个博学的"模仿者",进化为一个富有创造力的"探索者"。
它不再仅仅是学习和复现人类已有的知识,而是开始有能力在广阔的未知领域里,发现人类从未想到的、更优的解决方案。这种从"已知"到"未知"的跨越,是AI能力的一次质变。
谷歌从未让人失望。