Sora很强大,但现在也不必过度神话

在文生视频大模型Sora出现之后,有关其讨论也充斥网络。这篇文章里,作者就整理出了10个信息点,或许可以帮你更好地了解Sora的能力、背景和它所带来的影响。

大力出奇迹。

OpenAI最新发布的文生视频大模型Sora,再一次验证ChatGPT路线的成功:数据精确处理后大规模预训练带来的智能涌现。 从官方演示视频看,Sora能够根据文本提示创建详细的视频,扩展现有视频中的叙述以及从静态图像生成场景,最长能生成60秒视频。

一时间,Sora成为OpenAI的新爆款,被全球追捧。马斯克感叹"人类愿赌服输",360集团创始人、董事长兼CEO周鸿祎预言"AGI实现将从10年缩短到1年"。

但"XX已死,AI一夜变天"、"现实不存在了"、"这个行业要完蛋了"等两极分化的观点也瞬间充斥网络。观察各种讨论和信息后,整理出几个信息点,作为学习资料分享给大家。

另外Sora还没开放注册呢哈, 但根据文生图模型 DALL·E 案例来看的话肯定是会先给GPT Plus用户使用,需要一键升级的可以看这:24年最新版 ChatGPT Plus 教程

一、为什么叫Sora?有什么含义?

Sora这个名字取自日语单词,意为"天空",引申含义还有"自由"。在Sora官网页面,无数只纸飞机在自由飞翔,行动自主,最后汇集成一片天空的背景色。

此外,Sora这个词在在韩语中表示海螺壳,在芬兰语中表示砂砾,很容易让人联想到《海底两万里》的鹦鹉螺号和科幻片《沙丘》。

硅基立场提到,Sora在日语里有时候会用作动词,意思是"用心记,而不用看任何写下来的材料",变化出来的词比如"Soranjiru", そらんじる 的意思就是"remember by heart",这不正是Sora的能力?

官方说法是这样,研究团队成员蒂姆·布鲁克斯和比尔·皮布尔斯介绍,选择这个名字,是因为它能"唤起无限的创造潜力"。

二、Sora为何被称为世界模拟器?

"文生视频大模型"并不是一条全新的赛道。在Sora发布之前,Google、Stability AI等头部大厂都拥有自己的文生视频大模型。甚至诞生了垂直内容创作大模型的独角兽,例如视频生成大模型Gen-2的开发商Runway,在2023年6月底完成由Google、Nvidia等参与的C轮融资后,估值超过15亿美元。

但和ChatGPT的故事如出一辙,Sora登场就碾压对手。在此之前,AI视频生成领域的明星产品Runway和Pika,只能做3或4秒长的模糊视频,角色形象也很扭曲,还得用户输入图片。

主要视频生成模型/技术对比(来源:东吴证券)

OpenAI并未单纯将Sora视为视频模型,而是作为"世界模拟器"。它能像人一样,理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现"汽车撞毁坦克"这样的情况,这就是"世界模型"的强大之处。

Sora拥有三大关键特点:60秒超长长度、单视频多角度镜头以及世界模型。其中,"世界模型"是指通过对真实物理世界的模拟,让计算机可以像人类一样全面、准确地"认知"世界。

Sora背后拥有两大技术革新:时空补丁(Spacetime Patch)技术和扩散型Transformer(Diffusion Transformer,简称DiT)架构。OpenAI发现训练计算量越大,样本质量就会越高,特别是经过大规模训练后,Sora展现出模拟现实世界某些属性的"涌现"能力。

虽然Sora在物理规则模拟方面仍然存在不足。例如,一段展示老奶奶吹蜡烛的视频中,蜡烛并未随风熄灭;另一段视频中,玻璃杯从空中坠落却未破裂,水却已流出。

但Sora的作品达到了惊人的高清照片级真实感,"运镜"手法更令人难忘------围绕同一主体实现远景、中景、近景、特写等不同镜头的切换。这已经表明,通过大量数据的分析,机器能够推断出一些物理世界的规则,这无疑是向现实世界模拟迈出的重要一步。

值得一提的是,Sora所展现出来的"精准的物理世界还原能力",也并不是OpenAI独自探索的AI领域。"世界模型"最早是由图灵奖得主、Meta首席科学家杨立昆(Yann LeCun)2023年6月提出。2023年12月,Runway宣布建造"通用世界模型",用生成式AI模拟整个世界。马斯克也称,特斯拉掌握"精准还原现实世界物理规律的虚拟世界生成能力"快一年了。

三、重塑AGI的Sora如何影响世界?

360公司董事长周鸿祎的预言,即Sora的出现可能将实现通用人工智能(AGI)的时间从十年缩短至仅一年。许多人认为,Sora首先将对影视行业造成冲击。将来,影视剧制作的门槛会将会大大降低,只要心里有故事,就可借助强大的AI工具进行创作。

AI电影《山海奇境》的制作人陈坤提到,Sora通过展示其视频能力,旨在收集用户反馈,进一步探索和预测人们期望生成的视频内容。这一过程类似于大规模模型训练,全球用户的互动不断丰富和优化了其世界模型,推动AI在模拟现实世界方面变得更加精准和智能。

不同行业的巨头也感受到Sora的"威能":游戏公司育碧视其为一次巨大的飞跃;华大集团CEO尹烨将其比作开启了AI发展的"牛顿时代";而Meta的首席人工智能科学家、图灵奖得主LeCun则批评Sora无法真正理解物理世界。

四、Sora制造焦虑么?

Sora值得更多的赞誉,但过度神话大可不必。 贩卖焦虑的不是Sora,喊出"现实不存在",就两类人,一类是AI门徒,一类是正在卖课割韭菜。应该向前者致敬,而后者正如这张流传甚广的照片,典型如李一舟,正卖付费课程从你口袋掏钱。

网图

对于普通人,人工智能是一套辅助工具。想靠着买课听来的信息赚钱,只会是竹篮打水一场空。真正带来压迫感的,或许是Sora不可思议的进化速度。例如,Gen-2是2023年6月发布的产品,距离Sora的发布不过8个月。

支撑OpenAI以如此速度迭代的是"疯狂烧钱",也是"大力出奇迹"的驱动力。知乎上,一位叫做"像素炼金师"的创业者坦承了他在目睹Sora发布后的心路历程:"我有些害怕科技巨头的产品像隆隆火车一样驶过,而我做的东西如同路边的野草一样,在这个技术进步就像跑马灯一样的时代里,留不下一丝痕迹。"

五、OpenAI使了多大力?

Stability AI CEO Emad Mostaque曾称,人工智能作为基础设施所需的投资总额可能为1万亿美元,这会是人类有史以来最大的泡沫。

OpenAI训练GPT-4,用了大约25000块A100 GPU 。而训练GPT-5,还需要5万张H100,目前这张GPU的售价在2.5万至3万美元,还要排队。

为支撑OpenAI技术发展所需要的算力,"奥特曼"宣布启动"造芯"计划,筹集多达5万亿至7万亿美元的资金,生产芯片。这个募资规模,可以买下包括英伟达、台积电、英特尔、三星在内的十八家芯片巨头,以及社交巨头Meta,还剩3000亿美元。按照英伟达CEO黄仁勋的说法,7万亿美元能买下全球所有的GPU。

六、Sora面临的挑战有哪些?

首先是成本,Sora很强,但也更贵。小冰CEO李笛曾算过一笔账,如果把全中国所有媒体的撰稿工作全部由大模型来完成,颠覆掉了一个市场、端掉了很多撰稿人的饭碗,AI公司获得的也不过是200万左右的市场规模。大力出奇迹,但不是每家公司都有OpenAI的实力。

还有一个老生常谈的问题,Sora生成内容的版权问题也一直在被不断规范。比如,美国联邦贸易委员会(FTC)2月15日提出了禁止使用AI工具冒充个人的规则。FTC表示,它正在提议修改一项已经禁止冒充企业或政府机构的规则,将保护范围扩大到所有个人。

OpenAI内部也在进行模型伦理方面的对抗性测试,包括拒绝处理错误信息、仇恨内容、偏见内容和色情暴力等。

如今,山姆.阿尔特曼就像百年前的奥本海默,正在搭建影响未来的基础设施,并且还在不断同竞争对手拉开差距。

相较于ChatGPT的人声鼎沸,这一次,中国企业家和创投圈的公开"对比",明显沉寂很多。但赛道外,妄自菲薄、腹诽以及嘲讽的声量却不绝于耳。此种情形,个人十分认同硅基立场的观点:

我们不缺同样带来极佳体验的AI模型和产品,也不缺技术社区影响力极佳的个体和作品,但却没有在我们自己的讨论里形成该有的关注,也许所有人该放开一些包袱了。我们对自己严苛到妄自菲薄的事实也在起着反作用。

以对原创技术的理解和定义为例,OpenAI不是Transformer模型发明者,Stable Diffusion不是Diffusion模型发明者,Mistral不是MoE发明者。如果对标,它们本质都可以理解是一个个ASML,

所以"我们为什么没有诞生OpenAI"是不是并不等于"我们为什么没从头发明某某技术"?是不是哪怕一家像ASML这样的"只做沙子的搬运工"的公司,今天诞生在中国也躲不过先被骂套壳的命运?

有时候,问题提错了可能一切就都错了。

相关推荐
hunteritself12 小时前
ChatGPT高级语音模式正在向Web网页端推出!
人工智能·gpt·chatgpt·openai·语音识别
Swift社区2 天前
使用 AI 在医疗影像分析中的应用探索
typescript·tensorflow·openai
hunteritself3 天前
ChatGPT Search VS Kimi探索版:AI搜索哪家强?!
人工智能·gpt·chatgpt·openai·xai
Icried5 天前
使用React 实现一个简单的待办事项列表|青训营笔记:方向三
前端·openai
hunteritself7 天前
谷歌Gemini发布iOS版App,live语音聊天免费用!
人工智能·ios·chatgpt·openai·语音识别
OneFlow深度学习框架8 天前
LLM长上下文RAG能力实测:GPT o1 vs Gemini
gpt·语言模型·大模型·openai·gemini·o1
JarodYv9 天前
GPT-5 要来了:抢先了解其创新突破
gpt·openai·生成式ai·gpt-4·gpt-5
hunteritself10 天前
Sam Altman:年底将有重磅更新,但不是GPT-5!
人工智能·gpt·深度学习·chatgpt·openai·语音识别
Code_Artist13 天前
Spring AI: Make Spring Great Again!设计并实现一款智能Chat Bot!
后端·llm·openai
毅航13 天前
从原理到实践,构建属于自己的AI客服机器人
人工智能·后端·openai