Sora很强大，但现在也不必过度神话

在文生视频大模型Sora出现之后，有关其讨论也充斥网络。这篇文章里，作者就整理出了10个信息点，或许可以帮你更好地了解Sora的能力、背景和它所带来的影响。

大力出奇迹。

OpenAI最新发布的文生视频大模型Sora，再一次验证ChatGPT路线的成功：数据精确处理后大规模预训练带来的智能涌现。 从官方演示视频看，Sora能够根据文本提示创建详细的视频，扩展现有视频中的叙述以及从静态图像生成场景，最长能生成60秒视频。

一时间，Sora成为OpenAI的新爆款，被全球追捧。马斯克感叹"人类愿赌服输"，360集团创始人、董事长兼CEO周鸿祎预言"AGI实现将从10年缩短到1年"。

但"XX已死，AI一夜变天"、"现实不存在了"、"这个行业要完蛋了"等两极分化的观点也瞬间充斥网络。观察各种讨论和信息后，整理出几个信息点，作为学习资料分享给大家。

另外Sora还没开放注册呢哈, 但根据文生图模型 DALL·E 案例来看的话肯定是会先给GPT Plus用户使用,需要一键升级的可以看这:24年最新版 ChatGPT Plus 教程

一、为什么叫Sora？有什么含义？

Sora这个名字取自日语单词，意为"天空"，引申含义还有"自由"。在Sora官网页面，无数只纸飞机在自由飞翔，行动自主，最后汇集成一片天空的背景色。

此外，Sora这个词在在韩语中表示海螺壳，在芬兰语中表示砂砾，很容易让人联想到《海底两万里》的鹦鹉螺号和科幻片《沙丘》。

硅基立场提到，Sora在日语里有时候会用作动词，意思是"用心记，而不用看任何写下来的材料"，变化出来的词比如"Soranjiru"，そらんじる的意思就是"remember by heart"，这不正是Sora的能力？

官方说法是这样，研究团队成员蒂姆·布鲁克斯和比尔·皮布尔斯介绍，选择这个名字，是因为它能"唤起无限的创造潜力"。

二、Sora为何被称为世界模拟器？

"文生视频大模型"并不是一条全新的赛道。在Sora发布之前，Google、Stability AI等头部大厂都拥有自己的文生视频大模型。甚至诞生了垂直内容创作大模型的独角兽，例如视频生成大模型Gen-2的开发商Runway，在2023年6月底完成由Google、Nvidia等参与的C轮融资后，估值超过15亿美元。

但和ChatGPT的故事如出一辙，Sora登场就碾压对手。在此之前，AI视频生成领域的明星产品Runway和Pika，只能做3或4秒长的模糊视频，角色形象也很扭曲，还得用户输入图片。

主要视频生成模型/技术对比（来源：东吴证券）

OpenAI并未单纯将Sora视为视频模型，而是作为"世界模拟器"。它能像人一样，理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现"汽车撞毁坦克"这样的情况，这就是"世界模型"的强大之处。

Sora拥有三大关键特点：60秒超长长度、单视频多角度镜头以及世界模型。其中，"世界模型"是指通过对真实物理世界的模拟，让计算机可以像人类一样全面、准确地"认知"世界。

Sora背后拥有两大技术革新：时空补丁（Spacetime Patch）技术和扩散型Transformer（Diffusion Transformer，简称DiT）架构。OpenAI发现训练计算量越大，样本质量就会越高，特别是经过大规模训练后，Sora展现出模拟现实世界某些属性的"涌现"能力。

虽然Sora在物理规则模拟方面仍然存在不足。例如，一段展示老奶奶吹蜡烛的视频中，蜡烛并未随风熄灭；另一段视频中，玻璃杯从空中坠落却未破裂，水却已流出。

但Sora的作品达到了惊人的高清照片级真实感，"运镜"手法更令人难忘------围绕同一主体实现远景、中景、近景、特写等不同镜头的切换。这已经表明，通过大量数据的分析，机器能够推断出一些物理世界的规则，这无疑是向现实世界模拟迈出的重要一步。

值得一提的是，Sora所展现出来的"精准的物理世界还原能力"，也并不是OpenAI独自探索的AI领域。"世界模型"最早是由图灵奖得主、Meta首席科学家杨立昆（Yann LeCun）2023年6月提出。2023年12月，Runway宣布建造"通用世界模型"，用生成式AI模拟整个世界。马斯克也称，特斯拉掌握"精准还原现实世界物理规律的虚拟世界生成能力"快一年了。

三、重塑AGI的Sora如何影响世界？

360公司董事长周鸿祎的预言，即Sora的出现可能将实现通用人工智能（AGI）的时间从十年缩短至仅一年。许多人认为，Sora首先将对影视行业造成冲击。将来，影视剧制作的门槛会将会大大降低，只要心里有故事，就可借助强大的AI工具进行创作。

AI电影《山海奇境》的制作人陈坤提到，Sora通过展示其视频能力，旨在收集用户反馈，进一步探索和预测人们期望生成的视频内容。这一过程类似于大规模模型训练，全球用户的互动不断丰富和优化了其世界模型，推动AI在模拟现实世界方面变得更加精准和智能。

不同行业的巨头也感受到Sora的"威能"：游戏公司育碧视其为一次巨大的飞跃；华大集团CEO尹烨将其比作开启了AI发展的"牛顿时代"；而Meta的首席人工智能科学家、图灵奖得主LeCun则批评Sora无法真正理解物理世界。

四、Sora制造焦虑么？

Sora值得更多的赞誉，但过度神话大可不必。 贩卖焦虑的不是Sora，喊出"现实不存在"，就两类人，一类是AI门徒，一类是正在卖课割韭菜。应该向前者致敬，而后者正如这张流传甚广的照片，典型如李一舟，正卖付费课程从你口袋掏钱。

网图

对于普通人，人工智能是一套辅助工具。想靠着买课听来的信息赚钱，只会是竹篮打水一场空。真正带来压迫感的，或许是Sora不可思议的进化速度。例如，Gen-2是2023年6月发布的产品，距离Sora的发布不过8个月。

支撑OpenAI以如此速度迭代的是"疯狂烧钱"，也是"大力出奇迹"的驱动力。知乎上，一位叫做"像素炼金师"的创业者坦承了他在目睹Sora发布后的心路历程："我有些害怕科技巨头的产品像隆隆火车一样驶过，而我做的东西如同路边的野草一样，在这个技术进步就像跑马灯一样的时代里，留不下一丝痕迹。"

五、OpenAI使了多大力？

Stability AI CEO Emad Mostaque曾称，人工智能作为基础设施所需的投资总额可能为1万亿美元，这会是人类有史以来最大的泡沫。

OpenAI训练GPT-4，用了大约25000块A100 GPU 。而训练GPT-5，还需要5万张H100，目前这张GPU的售价在2.5万至3万美元，还要排队。

为支撑OpenAI技术发展所需要的算力，"奥特曼"宣布启动"造芯"计划，筹集多达5万亿至7万亿美元的资金，生产芯片。这个募资规模，可以买下包括英伟达、台积电、英特尔、三星在内的十八家芯片巨头，以及社交巨头Meta，还剩3000亿美元。按照英伟达CEO黄仁勋的说法，7万亿美元能买下全球所有的GPU。

六、Sora面临的挑战有哪些？

首先是成本，Sora很强，但也更贵。小冰CEO李笛曾算过一笔账，如果把全中国所有媒体的撰稿工作全部由大模型来完成，颠覆掉了一个市场、端掉了很多撰稿人的饭碗，AI公司获得的也不过是200万左右的市场规模。大力出奇迹，但不是每家公司都有OpenAI的实力。

还有一个老生常谈的问题，Sora生成内容的版权问题也一直在被不断规范。比如，美国联邦贸易委员会（FTC）2月15日提出了禁止使用AI工具冒充个人的规则。FTC表示，它正在提议修改一项已经禁止冒充企业或政府机构的规则，将保护范围扩大到所有个人。

OpenAI内部也在进行模型伦理方面的对抗性测试，包括拒绝处理错误信息、仇恨内容、偏见内容和色情暴力等。

如今，山姆.阿尔特曼就像百年前的奥本海默，正在搭建影响未来的基础设施，并且还在不断同竞争对手拉开差距。

相较于ChatGPT的人声鼎沸，这一次，中国企业家和创投圈的公开"对比"，明显沉寂很多。但赛道外，妄自菲薄、腹诽以及嘲讽的声量却不绝于耳。此种情形，个人十分认同硅基立场的观点：

我们不缺同样带来极佳体验的AI模型和产品，也不缺技术社区影响力极佳的个体和作品，但却没有在我们自己的讨论里形成该有的关注，也许所有人该放开一些包袱了。我们对自己严苛到妄自菲薄的事实也在起着反作用。

以对原创技术的理解和定义为例，OpenAI不是Transformer模型发明者，Stable Diffusion不是Diffusion模型发明者，Mistral不是MoE发明者。如果对标，它们本质都可以理解是一个个ASML，

所以"我们为什么没有诞生OpenAI"是不是并不等于"我们为什么没从头发明某某技术"？是不是哪怕一家像ASML这样的"只做沙子的搬运工"的公司，今天诞生在中国也躲不过先被骂套壳的命运？

有时候，问题提错了可能一切就都错了。