结合OpenAI、Google、Meta发布Sora、Gemini Pro 1.5、V-JEPA，分析三家AGI路线及当前情势

这里是陌小北，一个正在研究硅基生命的碳基生命。正在努力成为写代码的里面背诗最多的，背诗的里面最会写段子的，写段子的里面代码写得最好的......厨子。

写在前面

昨天整理每周新闻，发现2024年2月15日是个大日子，三大科技巨头Google、Meta和OpenAI同时发布了他们的最新技术成果：Gemini Pro 1.5、V-JEPA以及Sora。

就目前来说，三足鼎立之势已初步形成，OpenAI无疑是目前的老大，AGI是他们提出来的愿景，所以另外两家也得被迫跟着，至少是要表明态度。

在陌小北看来，除了Google的Gemini Pro 1.5，2.15其他两家发布的还不属于AGI路线下的拳头产品系列；2024年，OpenAI还是要看GPT5，Meta还是要看LLaMa 3，只是Sora被炒的热度实在是太高，但大家还是要冷静观之，不要冲动......

三家其实对于AGI的侧重和路线都有不同，这就会导致在实际工作和产品开发上的思路却存在一定差异。所以本文就结合个人观点，浅谈一下这件事。

本文脉络

1、浅谈2月15日及2024年三家发布的产品

2、三家AGI路线的异同分析

3、用三国视角浅析当前三家格局和策略

4、陌小北对于AGI的一些看法

三家产品浅析

OpenAI

首先是OpenAI的Sora，从目前透露出的Sora团队的组建情况和研究基础来看，Sora应该是OpenAI近一年来的最新成果。OpenAI 2024的重点应该还是GPT5，Sora应该是个意外之喜。现在放出Sora，可能是出于融资或是其他考虑，毕竟先是透露一直在做搜索产品，然后在Gemini Pro 1.5同一天放出Sora，OpenAI估值就到800亿美金，只能说Altman是懂商业的。

至于说Sora何时开放给用户，以及能否整合到GPT5中，个人认为还是要看产品的最终成熟度以及其对算力的消耗程度，像是DALLE就是在产品迭代成熟后才集成进GPT的，Sora目前甚至还没有开放给用户使用，bad case的比例有多少，生成1分钟视频的时间要多久，要消耗多少算力，这些目前我们都还不清楚，不好下结论。

Google

然后是Google的Gemini Pro 1.5，我理解整个Gemini系列就是OpenAI的对标产品，无论是年初的Bard，还是现在的Gemini，都是为了应对OpenAI所做的防御，人家都打到家门口来了，意大利炮还不拿出来？

所以无论是产品的规格、付费模式、使用方式等都在对标OpenAI，其他包括多模态理解，100万tokens的上下文理解等，都是在围绕着跟随OpenAI路线不变的情况下做的创新优化。

虽然，Google的每次应战都有些仓促，但我认为这是由于两家对于AGI路线的观点不同导致的，这不是Google的主场作战，他手里还有牌没出，这个我下面会细讲。

三家对于AGI的侧重点

OpenAI

首先是OpenAI，OpenAI已经把实现AGI放在官网的愿景里了，好像是这两天才更新的。

这里提到的AGI使命主要包含两方面：1、一个可以解决人类问题的系统（a system that can solve human-level problems）；2、构建安全并且有价值的AGI（Building safe and beneficial AGI）

在之前Q-Star项目曝出时，他们也表述过关于AGI的定义：

OpenAl defines AGI as autonomous systems that surpass humans in most economically valuable tasks.

在那次表述中，他们对 AGI 的定义是在大多数具有经济价值的任务中超越人类。

结合这两个关于AGI的表述，我的理解是，OpenAI的目标是，在对人类有价值的问题领域，做超越人类水平的AI，所以他们目前的策略是通过LLM先实现一个模糊的深度，再通过对齐来实现精准深度。

Google

最早提出Transformer架构的是谷歌，若论起研发实力一定是不输OpenAI的，为什么领先的不是谷歌？是不是他们本身对于AI的路线就不是这个？

对于AGI的定义和路线，DeepMind 给出了一个更为具体也更有层次的定义。在论文《Levels of AGI: Operationalizing Progress on the Path to AGI》中，将 AGI 分成了 6 个等级，如下图

左边是专门解决特定任务的弱人工智能，右边是能够解决通用任务的通用人工智能，可以通过类比来理解 AGI 的层次。先看左边， 0级相当于没有AI，比如计算器；一级属于涌现级别，也就是比纯外行要强。二级是胜任级别，也就是能达到 50% 该领域从业者的水平，换句话说就是平均水平，比如Siri等一众语言助手。三级是专家级别，可以达到 90% 该领域从业者的水平，比如像一些拼写或语法检查器之类的；四级是大师级别，可以达到 99% 该领域从业者的水平，比如下棋的深蓝和Alphago；五级是超人级别，也就是在这个领域比 100% 的人类都强。比如预测蛋白质结构的AlphaFold。

如果我们能把 AI 在这些特定领域展现出的水平推广到其他任意领域，那就相当于实现了各个等级的强人工智能。而对右边而言，目前来说只实现到了第一级，也就是涌现级别。典型的例子就是以 ChatGPT 为代表的一众大语言模型。

所以DeepMind的路线应该是一如既往的研发解决特定问题的专项模型，先逐一攻克 AI 在特定领域的深度问题，再想办法将其延展到其他各个领域。

总结

所以如果将AGI从深度和广度分别来看，Meta 更侧重于广度，更侧重于人类基础能力上的覆盖，但是在他们看来目前的路径错了。DeepMind 更侧重于深度的实现，也就是先在某些特定领域实现出超人级别的AI，再想办法逐步扩展到更多领域。OpenAI 的定义似乎可以看作是介于二者之间。OpenAI 不在意所有任务，只在意大多数有价值的任务，这其实是有限的广度，而同时他又希望在这些有价值的任务上超越人类，所以通过「LLM+对齐」的方式，在有限的广度内实现超人级别的深度。

一个群雄并起的时代

声明，以下观点纯属是陌小北的梦话，言论与她本人以及她所在的"陌北有棵树"账号无关。

我是个三国重度爱好者，那也是一场精彩的、关于一群天才的奋斗史诗，所以不妨戏说一下比较一下当前和三国局势，各位看官就当看个乐子就好，切莫当真。

OpenAI

说起魏国，最开始一定是得人心的，官渡之战可以说所有的好运气都在他这边，让其完成了最初的地盘和人才的聚集。

但随着「奉天子以令不臣」变为「挟天子以令诸侯」，OpenAI变成CloseAI。衣带诏事件后，东汉皇室已再无翻身可能，再回想OpenAI的那场宫斗大戏。公元213年曹操称魏公，加九锡，荀彧的梦想破灭了，llya的梦想好像也破灭了。公元216年称魏王，至此汉朝四百年的老匾，逐渐转移到刘备头上，看看现在是谁在举着OpenAI当年的开源大旗。

但最后，统一三国的却是司马家，因为他们代表着世家大族的利益。曹操、曹丕到曹叡，和世家大族一直都是在博弈，曹丕称帝向士族们让渡的利益，终是埋下了祸根的。对世家大族而言，既然你始终不跟我们一条心，何不取而代之？微软在一旁沉默不语。

Google

东吴是老二，为什么我放在最后写，因为如果单纯说三国的话，陌小北认为最后三国的结局很大程度上是吴国的失误决策造成的。如果从博弈论的角度，作为老二最好的策略就是联合老三打老大，老二老三互掐，只会加速老大一统天下的节奏，要不是曹丕紧跟着也浪了一把，三国最开始可能就玩不下去了。

有时候悲哀往往就在于，弱者只能通过报团取暖的方式去和老大博弈，但凡一个弱者走错了一步，整个逻辑链条就会变为弱者相互倾轧，等待强者收割，所以老二做了背盟偷袭的选择后，让老三无论怎么选都是错。只能说鲁肃死后，再没人能帮孙老二算清楚这笔账。

请注意，上面说的都是三国历史，切记不要过分带入，现在的情势在很大程度上是不同的。

毕竟谷歌不是孙十万，所以一切未可知。我不认为谷歌只是个老二的实力，毕竟他是上个时代的王者，现在的仓促，只是因为他是在按照OpenAI的作战路线被迫应战，他的王牌也还没有出。

写在最后

上面的部分纯属戏说，不带有任何预测成分，历史往往是抽象后的产物，抽象就代表着去掉了许多细节，抽象的层级越高，通用性就越强，很多现象和事件都可以套在里面，所以但凡是个三方争霸的格局，你往三国里面套都能套进去，但这同时意味着没什么实际价值，所以就图一乐，切莫当真。

接下来我说点正经的，讲真，我这个人正经起来，那也是十分不正经的，你们别不害怕。

关于AGI，尽管OpenAI提出了实现AGI的愿景，但是基于Transformer模型潜力的上限，目前还没有摸到顶，能不能达到他们说的AGI还有待验证。

但我认为这并不是我们普通人该过于关注的，能不能实现AGI，那是神仙打架的事情，对普通人真没那么重要。

每一轮科技创新，对实际生活产生的最终影响，才是最有价值的部分。

上一轮AI革命是基于深度神经网络，实现AGI了吗？没有，但是人脸识别，推荐算法，照样对社会产生了深远影响。

这一轮AI革命是基于Transformer，能实现AGI吗？难说，因为Transformer的天花板还没摸到，要看GPT5、6、7......的模型能力提升速度，就像是当年的摩尔定律，但这不妨碍其应用能对社会带来的价值。

所以与其去关注到底什么时候实现AGI，谁的路线是对的，不如去关注当下。

如果你是工程师，多关注基于新的底层模型，架构要怎么搭，如何快速稳定的支持业务，多思考基于AI的新的架构范式是怎样的。

如果你是设计师，多关注怎么应用最新的AIGC技术，创作更优秀的作品。

如果你是老师，多关注新的科技变革下，究竟需要什么样的人才，传统的教育方式是不是也要做相应的变革？

如果你是医生，多关注是否能够将一个乃至多个顶级医生的多年经验灌输给AI，挽救更多人的生命。

陌小北看来，目前还处于对Transformer的探顶阶段，所以每上升一层，就会死掉一批创业公司，像是GPTs干掉了一批prompt套壳公司，Gemini Pro 1.5又会干掉一批以RAG为卖点的公司，Sora又会干掉一批AI视频公司，一次次被印证，时代车轮碾压你，与你无关。

另外，如果Yann LeCun的观点是对的，并且「世界模型」在Transformer能力到达天花板后直接续上，开启下一轮AI能力的跃迁，那么又是另一番景象，所以一切都很难说，但真的很精彩。

滚滚长江东逝水，浪花淘尽英雄。是非成败转头空。青山依旧在，几度夕阳红。

白发渔樵江渚上，惯看秋月春风。一壶浊酒喜相逢。古今多少事，都付笑谈中。