结合OpenAI、Google、Meta发布Sora、Gemini Pro 1.5、V-JEPA,分析三家AGI路线及当前情势

这里是陌小北,一个正在研究硅基生命的碳基生命。正在努力成为写代码的里面背诗最多的,背诗的里面最会写段子的,写段子的里面代码写得最好的......厨子。

写在前面

昨天整理每周新闻,发现2024年2月15日是个大日子,三大科技巨头Google、Meta和OpenAI同时发布了他们的最新技术成果:Gemini Pro 1.5、V-JEPA以及Sora。

就目前来说,三足鼎立之势已初步形成,OpenAI无疑是目前的老大,AGI是他们提出来的愿景,所以另外两家也得被迫跟着,至少是要表明态度。

在陌小北看来,除了Google的Gemini Pro 1.5,2.15其他两家发布的还不属于AGI路线下的拳头产品系列;2024年,OpenAI还是要看GPT5,Meta还是要看LLaMa 3,只是Sora被炒的热度实在是太高,但大家还是要冷静观之,不要冲动......

三家其实对于AGI的侧重和路线都有不同,这就会导致在实际工作和产品开发上的思路却存在一定差异。所以本文就结合个人观点,浅谈一下这件事。

本文脉络

1、浅谈2月15日及2024年三家发布的产品

2、三家AGI路线的异同分析

3、用三国视角浅析当前三家格局和策略

4、陌小北对于AGI的一些看法

三家产品浅析

OpenAI

首先是OpenAI的Sora,从目前透露出的Sora团队的组建情况和研究基础来看,Sora应该是OpenAI近一年来的最新成果。OpenAI 2024的重点应该还是GPT5,Sora应该是个意外之喜。现在放出Sora,可能是出于融资或是其他考虑,毕竟先是透露一直在做搜索产品,然后在Gemini Pro 1.5同一天放出Sora,OpenAI估值就到800亿美金,只能说Altman是懂商业的。

至于说Sora何时开放给用户,以及能否整合到GPT5中,个人认为还是要看产品的最终成熟度以及其对算力的消耗程度,像是DALLE就是在产品迭代成熟后才集成进GPT的,Sora目前甚至还没有开放给用户使用,bad case的比例有多少,生成1分钟视频的时间要多久,要消耗多少算力,这些目前我们都还不清楚,不好下结论。

Google

然后是Google的Gemini Pro 1.5,我理解整个Gemini系列就是OpenAI的对标产品,无论是年初的Bard,还是现在的Gemini,都是为了应对OpenAI所做的防御,人家都打到家门口来了,意大利炮还不拿出来?

所以无论是产品的规格、付费模式、使用方式等都在对标OpenAI,其他包括多模态理解,100万tokens的上下文理解等,都是在围绕着跟随OpenAI路线不变的情况下做的创新优化。

虽然,Google的每次应战都有些仓促,但我认为这是由于两家对于AGI路线的观点不同导致的,这不是Google的主场作战,他手里还有牌没出,这个我下面会细讲。

Meta

再看Meta的V-JEPA,其实V-JEPA只是一个视频生成模型,目前来说还不具备商业化价值。众所周知Yann LeCun从来都不认为生成式模型能够理解物理世界的规律,所以V-JEPA是一种非生成式架构。

尽管现在吵得很凶,类似「杨立昆说Sora不理解物理世界」的稿子满天飞,但也是一时热度,今年Meta的主要发力点应该还是LLaMa 3,V-JEPA也是适时的在这个时间放出来配合热度,技术可以研究,但热度可以不跟。感觉Sora和V-JEPA的技术路线之争,可以再写一篇偏技术的了,但如果这几天能找到写得好的,我就不写了。

三家对于AGI的侧重点

OpenAI

首先是OpenAI,OpenAI已经把实现AGI放在官网的愿景里了,好像是这两天才更新的。

这里提到的AGI使命主要包含两方面:1、一个可以解决人类问题的系统(a system that can solve human-level problems);2、构建安全并且有价值的AGI(Building safe and beneficial AGI)

在之前Q-Star项目曝出时,他们也表述过关于AGI的定义:

OpenAl defines AGI as autonomous systems that surpass humans in most economically valuable tasks.

在那次表述中,他们对 AGI 的定义是在大多数具有经济价值的任务中超越人类。

结合这两个关于AGI的表述,我的理解是,OpenAI的目标是,在对人类有价值的问题领域,做超越人类水平的AI,所以他们目前的策略是通过LLM先实现一个模糊的深度,再通过对齐来实现精准深度。

Google

最早提出Transformer架构的是谷歌,若论起研发实力一定是不输OpenAI的,为什么领先的不是谷歌?是不是他们本身对于AI的路线就不是这个?

对于AGI的定义和路线,DeepMind 给出了一个更为具体也更有层次的定义。在论文《Levels of AGI: Operationalizing Progress on the Path to AGI》中,将 AGI 分成了 6 个等级,如下图

左边是专门解决特定任务的弱人工智能,右边是能够解决通用任务的通用人工智能,可以通过类比来理解 AGI 的层次。先看左边, 0级相当于没有AI,比如计算器;一级属于涌现级别,也就是比纯外行要强。二级是胜任级别,也就是能达到 50% 该领域从业者的水平,换句话说就是平均水平,比如Siri等一众语言助手。三级是专家级别,可以达到 90% 该领域从业者的水平,比如像一些拼写或语法检查器之类的;四级是大师级别,可以达到 99% 该领域从业者的水平,比如下棋的深蓝和Alphago; 五级是超人级别,也就是在这个领域比 100% 的人类都强。比如预测蛋白质结构的AlphaFold。

如果我们能把 AI 在这些特定领域展现出的水平推广到其他任意领域,那就相当于实现了各个等级的强人工智能。而对右边而言,目前来说只实现到了第一级,也就是涌现级别。典型的例子就是以 ChatGPT 为代表的一众大语言模型。

所以DeepMind的路线应该是一如既往的研发解决特定问题的专项模型,先逐一攻克 AI 在特定领域的深度问题,再想办法将其延展到其他各个领域。

Meta

然后说Meta,若论实力,其实是比不过前面两家的,所以Meta采取了很聪明的策略,这个我下个部分细说,先说Meta对于AGI的观点,我觉得对于扎克伯格和杨立昆可以分别说说。

在一次采访中,扎克伯格表示,在他看来AGI 最重要的是广度,也就是说 AI 要具有包括推理和直觉在内的多种不同能力

"You can quibble about if general intelligence is akin to human level intellligence,or is it like human-plus, or is it some far-future super intelligende. But to me, the important part is actually the breadth of it, which is thhat intelligence has all these different capabilities where you have tobe able to reason and have intuition."

杨立昆在近期时代杂志的采访中,似乎在与AGI划清界限,他表示FAIR(Meta的基础人工智能研究团队)的使命是实现人类水平智能,而同时他认为人类智能不具备通用性。如果想达到通用人工智能,并不是仅仅靠大模型就能实现,路径要远比这复杂,如果按照目前的方式,必然会出现幻觉问题。所以他给出的路径是先通过学习"世界模型",并将其与规划技术相结合,再加上短期记忆,先能够达到猫的水平的智能,当达到这一步之后,才能进一步去考虑实现人类水平智能。

所以可以看出,扎克伯格和杨立昆虽然用词不同,但是表述的意思都是想从广度上实现AI达到人类智能水平的问题。

总结

所以如果将AGI从深度和广度分别来看,Meta 更侧重于广度,更侧重于人类基础能力上的覆盖,但是在他们看来目前的路径错了。DeepMind 更侧重于深度的实现,也就是先在某些特定领域实现出超人级别的AI,再想办法逐步扩展到更多领域。OpenAI 的定义似乎可以看作是介于二者之间。OpenAI 不在意所有任务,只在意大多数有价值的任务,这其实是有限的广度,而同时他又希望在这些有价值的任务上超越人类,所以通过「LLM+对齐」的方式,在有限的广度内实现超人级别的深度。

一个群雄并起的时代

声明,以下观点纯属是陌小北的梦话,言论与她本人以及她所在的"陌北有棵树"账号无关。

我是个三国重度爱好者,那也是一场精彩的、关于一群天才的奋斗史诗,所以不妨戏说一下比较一下当前和三国局势,各位看官就当看个乐子就好,切莫当真。

OpenAI

说起魏国,最开始一定是得人心的,官渡之战可以说所有的好运气都在他这边,让其完成了最初的地盘和人才的聚集。

但随着「奉天子以令不臣」变为「挟天子以令诸侯」,OpenAI变成CloseAI。衣带诏事件后,东汉皇室已再无翻身可能,再回想OpenAI的那场宫斗大戏。公元213年曹操称魏公,加九锡,荀彧的梦想破灭了,llya的梦想好像也破灭了。公元216年称魏王,至此汉朝四百年的老匾,逐渐转移到刘备头上,看看现在是谁在举着OpenAI当年的开源大旗。

但最后,统一三国的却是司马家,因为他们代表着世家大族的利益。曹操、曹丕到曹叡,和世家大族一直都是在博弈,曹丕称帝向士族们让渡的利益,终是埋下了祸根的。对世家大族而言,既然你始终不跟我们一条心,何不取而代之?微软在一旁沉默不语。

Meta

论起蜀国,实力不足以与魏吴抗衡,于是打出汉家正统的旗号,且时刻不忘体恤百姓,散播爱民美名。且看今日之Meta,一面杨立昆宣扬大语言模型实现不了人类智能,现在的路都是错的,世界模型才是正确方向,一面开源高举大旗,至少先赢人心,建标准。所以小札和杨立昆,在某种程度上也可称得上是天作之合。如果抛开情感理性分析,这的确是老三最好的策略。

虽然杨立昆说的或许是对的,但这个时候,谁的拳头硬谁更有话语权。虽然谁的拳头硬谁更有话语权,但总要有人坚持着最初的梦想,不停地喊出自己坚持的真理,用开源去接纳那些有情怀但无路的开发者,总会有人认可和跟随。

如果没有刘玄德带着他的寒门军团一生的坚韧奋斗,永远的老兵不死,他老刘家不会在中国历史中谢幕的那么有尊严;蜀国是三国里最有人情味的一伙人,老刘的仁厚爱民,二爷的义薄云天,丞相的鞠躬尽瘁,千百年后仍旧被人惦念。

Google

东吴是老二,为什么我放在最后写,因为如果单纯说三国的话,陌小北认为最后三国的结局很大程度上是吴国的失误决策造成的。如果从博弈论的角度,作为老二最好的策略就是联合老三打老大,老二老三互掐,只会加速老大一统天下的节奏,要不是曹丕紧跟着也浪了一把,三国最开始可能就玩不下去了。

有时候悲哀往往就在于,弱者只能通过报团取暖的方式去和老大博弈,但凡一个弱者走错了一步,整个逻辑链条就会变为弱者相互倾轧,等待强者收割,所以老二做了背盟偷袭的选择后,让老三无论怎么选都是错。只能说鲁肃死后,再没人能帮孙老二算清楚这笔账。

请注意,上面说的都是三国历史,切记不要过分带入,现在的情势在很大程度上是不同的。

毕竟谷歌不是孙十万,所以一切未可知。我不认为谷歌只是个老二的实力,毕竟他是上个时代的王者,现在的仓促,只是因为他是在按照OpenAI的作战路线被迫应战,他的王牌也还没有出。

写在最后

上面的部分纯属戏说,不带有任何预测成分, 历史往往是抽象后的产物,抽象就代表着去掉了许多细节,抽象的层级越高,通用性就越强,很多现象和事件都可以套在里面,所以但凡是个三方争霸的格局,你往三国里面套都能套进去,但这同时意味着没什么实际价值,所以就图一乐,切莫当真。

接下来我说点正经的,讲真,我这个人正经起来,那也是十分不正经的,你们别不害怕。

关于AGI,尽管OpenAI提出了实现AGI的愿景,但是基于Transformer模型潜力的上限,目前还没有摸到顶,能不能达到他们说的AGI还有待验证。

但我认为这并不是我们普通人该过于关注的,能不能实现AGI,那是神仙打架的事情,对普通人真没那么重要。

每一轮科技创新,对实际生活产生的最终影响,才是最有价值的部分。

上一轮AI革命是基于深度神经网络,实现AGI了吗?没有,但是人脸识别,推荐算法,照样对社会产生了深远影响。

这一轮AI革命是基于Transformer,能实现AGI吗?难说,因为Transformer的天花板还没摸到,要看GPT5、6、7......的模型能力提升速度,就像是当年的摩尔定律,但这不妨碍其应用能对社会带来的价值。

所以与其去关注到底什么时候实现AGI,谁的路线是对的,不如去关注当下。

如果你是工程师,多关注基于新的底层模型,架构要怎么搭,如何快速稳定的支持业务,多思考基于AI的新的架构范式是怎样的。

如果你是设计师,多关注怎么应用最新的AIGC技术,创作更优秀的作品。

如果你是老师,多关注新的科技变革下,究竟需要什么样的人才,传统的教育方式是不是也要做相应的变革?

如果你是医生,多关注是否能够将一个乃至多个顶级医生的多年经验灌输给AI,挽救更多人的生命。

陌小北看来,目前还处于对Transformer的探顶阶段,所以每上升一层,就会死掉一批创业公司,像是GPTs干掉了一批prompt套壳公司,Gemini Pro 1.5又会干掉一批以RAG为卖点的公司,Sora又会干掉一批AI视频公司,一次次被印证,时代车轮碾压你,与你无关。

另外,如果Yann LeCun的观点是对的,并且「世界模型」在Transformer能力到达天花板后直接续上,开启下一轮AI能力的跃迁,那么又是另一番景象,所以一切都很难说,但真的很精彩。

滚滚长江东逝水,浪花淘尽英雄。是非成败转头空。青山依旧在,几度夕阳红。

白发渔樵江渚上,惯看秋月春风。一壶浊酒喜相逢。古今多少事,都付笑谈中。

相关推荐
埃菲尔铁塔_CV算法24 分钟前
深度学习神经网络创新点方向
人工智能·深度学习·神经网络
艾思科蓝-何老师【H8053】42 分钟前
【ACM出版】第四届信号处理与通信技术国际学术会议(SPCT 2024)
人工智能·信号处理·论文发表·香港中文大学
weixin_452600691 小时前
《青牛科技 GC6125:驱动芯片中的璀璨之星,点亮 IPcamera 和云台控制(替代 BU24025/ROHM)》
人工智能·科技·单片机·嵌入式硬件·新能源充电桩·智能充电枪
学术搬运工1 小时前
【珠海科技学院主办,暨南大学协办 | IEEE出版 | EI检索稳定 】2024年健康大数据与智能医疗国际会议(ICHIH 2024)
大数据·图像处理·人工智能·科技·机器学习·自然语言处理
右恩1 小时前
AI大模型重塑软件开发:流程革新与未来展望
人工智能
图片转成excel表格2 小时前
WPS Office Excel 转 PDF 后图片丢失的解决方法
人工智能·科技·深度学习
ApiHug2 小时前
ApiSmart x Qwen2.5-Coder 开源旗舰编程模型媲美 GPT-4o, ApiSmart 实测!
人工智能·spring boot·spring·ai编程·apihug
哇咔咔哇咔3 小时前
【科普】简述CNN的各种模型
人工智能·神经网络·cnn
李歘歘3 小时前
万字长文解读深度学习——多模态模型CLIP、BLIP、ViLT
人工智能·深度学习