现实该如何分辨?OpenAI发布文生视频模型Sora,AI圈风云再变

OpenAI一直是AI圈的领跑者,2月16日凌晨,OpenAI再次抛出重磅炸弹,继 Runway、Pika、谷歌和 Meta 之后,OpenAI 终于加入视频生成领域的战争,首次发布了自家的文生视频模型Sora。AI圈的格局将再次被搅动,又将有一批AI创业者面临崩溃。

Sora 是什么?

据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。重要的是能严格遵守用户输入的提示语句,能够理解和模拟真实世界。

根据目前OpenAI发布的内容来看,Sora已经吊打目前所有AI视频工具。看来OpenAI希望又一次改变了世界!

Sora 有什么特点

目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。整体来说我们可以看到Sora的3个重要突出特点:

一分钟视频

首先是视频的长度,目前可以生成视频长度达到一分钟的,是非常难得的。而且这个长度已经可以达到大部分人的基本需求。就像一般视频平台的定义,1分钟以上就已经不是短视频,而是中视频了。

我们来看 OpenAI 官网给出的一个demo视频,一个女人在东京街头行走的视频。promt如下:

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

流畅的视频效果真的让人震撼,已经把一卡一卡的逐帧捏合视频直接淘汰了。而且这里OpenAI还解决了一个重要挑战,即确保主题即使暂时离开视野也保持不变。

复杂的多角度镜头

在以往的AI生成视频中,都是单镜头推进式的视频模式,而Sora生成的视频中可以切换多个角度,并保持主题的一致性,已经接近于影视叙事的水平。

看下下面这个宇航员的demo,prompt如下:

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

理解物理世界

世界模型真的要成真了?众多AI厂商都在提的世界模型,现在在Sora身上经有了雏形。通过观察大量数据,它竟然学会了许多关于世界的物理规律。来看下这个demo视频,不光有列车和窗外真实的美景外,更厉害的细节是车窗上的反光倒影,随着车内外光线环境和人物的运动变化,倒影也几乎完美还原了真实世界的样子!

prompt如下:

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.

存在的缺陷

OpenAI 同时也承认当前的模型存在弱点。它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。

该模型还可能会混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。

例如下面这个视频,狗会自己出现,确实很诡异。

幸好AI还有缺陷,不然的话,我们真的没办法区分虚拟和现实了。

更多技术细节

对 Sora 背后的模型细节,我们非常好奇也非常关注。据 OpenAI 博客,更多的信息将在后续的技术论文中公布。

相关推荐
用户51914958484513 分钟前
对抗性工程实践:利用AI自动化构建GitHub仓库的虚假提交历史
人工智能·aigc
riveting40 分钟前
重塑工业设备制造格局:明远智睿 T113-i 的破局之道
人工智能·物联网·制造·t113·明远智睿
zzywxc7871 小时前
详细探讨AI在金融、医疗、教育和制造业四大领域的具体落地案例,并通过代码、流程图、Prompt示例和图表等方式展示这些应用的实际效果。
开发语言·javascript·人工智能·深度学习·金融·prompt·流程图
算家计算1 小时前
32K上下文开源语音理解、40分钟深度交互——Voxtral-Small-24B-2507本地部署教程
人工智能·开源·aigc
聚客AI1 小时前
📝工程级开源:PyTorch手搓LLaMA4-MoE全栈指南
人工智能·llm·掘金·日新计划
TechubNews1 小时前
加密资产投资的六种策略:稳定币合规后的 Web3 投资和 RWA
人工智能·web3
机器之心1 小时前
7年了,OpenAI官方给出五代GPT对比,网友却怀念起「狂野」初代
人工智能·openai
后端小肥肠2 小时前
Coze+ComfyUI 实战:视频制作成本降10 倍,高质量成片这么做
人工智能·aigc·coze
爱分享的飘哥2 小时前
第七十章:告别“手写循环”噩梦!Trainer结构搭建:PyTorch Lightning让你“一键炼丹”!
人工智能·pytorch·分布式训练·lightning·accelerate·训练框架·trainer
阿里云大数据AI技术2 小时前
PAIFuser:面向图像视频的训练推理加速框架
人工智能·机器学习