Open Sora 发布!开源的高效复现类 Sora 视频生成方案

不久前 OpenAI Sora 的发布可以说是震惊了世界,但是奈何目前 OpenAI 还未将 Sora 开放公测,但在昨天,我们却等来了 Open Sora 1.0 的发布,这是 Colossal-AI 团队的一个完全开源的视频生成项目,致力于**高效** 制作高质量视频,并使所有人都能使用其模型、工具和内容的计划。 通过采用**开源**原则,Open-Sora 不仅实现了先进视频生成技术的低成本普及,还提供了一个精简且用户友好的方案,简化了视频制作的复杂性。 # 模型训练报告 以下是 Colossal-AI 团队提供的模型训练报告: 为了降低计算成本,我们希望利用现有的 VAE 模型。 Sora 使用时空 VAE 来减少时间维度。然而目前还没有开源的高质量时空 VAE 模型。 MAGVIT 的4x4x4 VAE 不是开源的,而 VideoGPT 的 2x4x4 VAE 在我们的实验中质量较低。因此,我们决定在第一个版本中使用 2D VAE(来自 Stability-AI)。 视频训练涉及大量的 token。考虑 24fps 1 分钟视频,我们有 1440 帧。通过 VAE 下采样 4 倍和补丁大小下采样 2 倍,我们有 1440x1024≈1.5M 令牌。完全关注 150 万个代币会导致巨大的计算成本。因此,我们使用时空注意力来降低 Latte 之后的成本。 如图所示,我们在 STDiT 中的每个空间注意力之后插入一个时间注意力(ST 代表空间-时间)。这与 Latte 论文中的变体 3 类似。然而,我们不控制这些变体的类似数量的参数。虽然 Latte 的论文声称他们的变体比变体 3 更好,但我们对 16x256x256 视频的实验表明,在相同的迭代次数下,性能排名为:DiT(完整)\> STDiT(顺序)\> STDiT(并行)≈ Latte。因此,出于效率考虑,我们选择STDiT(顺序)。此处提供了速度基准。 ![](https://file.jishuzhan.net/article/1780436911626653698/f9985026e9486f0ab01960721f736d81.webp) 为了专注于视频生成,我们希望基于强大的图像生成模型来训练模型。 PixArt-α 是一种经过有效训练的高质量图像生成模型,具有T5条件DiT结构。我们用 PixArt-α 初始化模型,并将插入时间注意力的投影层初始化为零。这种初始化保留了模型在开始时生成图像的能力,而 Latte 的架构则不能。插入的 attention 使参数数量从580M增加到724M。 ![](https://file.jishuzhan.net/article/1780436911626653698/2d745b8b64643f42f752a0a28a52ca59.webp) 借鉴 PixArt-α 和 Stable Video Diffusion 的成功经验,我们还采用渐进式训练策略:在 366K 预训练数据集上使用 16x256x256,然后在 20K 数据集上使用 16x256x256、16x512x512 和 64x512x512。通过缩放位置嵌入,该策略大大降低了计算成本。 我们还尝试在 DiT 中使用 3D 补丁嵌入器。然而,在时间维度上进行 2 倍下采样,生成的视频质量较低。因此,我们在下一个版本中将下采样留给时间 VAE。目前,我们在 16 帧训练中每 3 帧采样一次,在 64 帧训练中每 2 帧采样一次。 我们发现数据的数量和质量对生成视频的质量有很大的影响,甚至比模型架构和训练策略还要大。此时,我们只准备了 HD-VG-130M 的第一个分割(366K 视频剪辑)。这些视频的质量参差不齐,而且字幕也不太准确。因此,我们进一步从提供免费许可视频的 Pexels 收集了 20k 个相对高质量的视频。我们使用 LLaVA(一种图像字幕模型)来标记视频,其中包含三个帧和一个设计好的提示。通过精心设计的提示,LLaVA 可以生成高质量的字幕。 ![](https://file.jishuzhan.net/article/1780436911626653698/60c1e44e19eea3f73c59368f834b7107.webp) 随着我们更加重视数据的质量,我们准备在下一个版本中收集更多数据并构建视频预处理管道。 # 最新成果展示 以下是经过压缩的视频 gif 动图以及简化的提示词: ![](https://file.jishuzhan.net/article/1780436911626653698/f77c1aaafc2fdd402fafa1fda4b71779.webp) > 森林地区宁静的夜景。 该视频是一段延时视频,捕捉从白天到黑夜的过渡,以湖泊和森林作为恒定的背景。 ![](https://file.jishuzhan.net/article/1780436911626653698/5202f5a95cc00b9dfc071b5b35abb3e5.webp) > 翱翔的无人机镜头捕捉到了海岸悬崖的雄伟美景,水轻轻地拍打着岩石底部和悬崖顶部的绿色植物。 ![](https://file.jishuzhan.net/article/1780436911626653698/c8894dfb111513bc346fb9587a90b4a9.webp) > 瀑布从悬崖上倾泻而下,注入宁静的湖泊,景色雄伟壮观。以相机角度提供了瀑布的鸟瞰图。 ![](https://file.jishuzhan.net/article/1780436911626653698/b83ed0dd6d6fbf5016739ca4bcb9b8d3.webp) > 夜晚繁华的城市街道,充满了汽车前灯的光芒和路灯的氛围光。 ![](https://file.jishuzhan.net/article/1780436911626653698/ed580d7a77654b6552f1c75436fbe172.webp) > 向日葵田充满活力的美丽。向日葵排列整齐,营造出秩序感和对称感。 ![](https://file.jishuzhan.net/article/1780436911626653698/c973f09ec0e515ef208e7664f051cdde.webp) > 宁静的水下场景,海龟在珊瑚礁中游动。乌龟,有着绿棕色的壳。 项目开源地址:[github.com/hpcaitech/O...](https://link.juejin.cn?target=https%3A%2F%2Fgithub.com%2Fhpcaitech%2FOpen-Sora "https://github.com/hpcaitech/Open-Sora") 团队表示 Open-Sora 项目目前处在早期阶段,并将持续更新。 往期推荐 > [一键升级ChatGPT Plus](https://juejin.cn/post/7341668771911090203 "https://juejin.cn/post/7341668771911090203") > > [注册与订阅 OnlyFans](https://juejin.cn/post/7344567634916311074 "https://juejin.cn/post/7344567634916311074") > > [如何发展副业](https://juejin.cn/post/7347221074704384010 "https://juejin.cn/post/7347221074704384010")

相关推荐
古希腊掌管学习的神7 小时前
[LangGraph教程]LangGraph04——支持人机协作的聊天机器人
人工智能·语言模型·chatgpt·机器人·agent
鸿蒙布道师7 小时前
OpenAI为何觊觎Chrome?AI时代浏览器争夺战背后的深层逻辑
前端·人工智能·chrome·深度学习·opencv·自然语言处理·chatgpt
AIGC大时代9 小时前
高质量学术引言如何妙用ChatGPT?如何写提示词
人工智能·深度学习·chatgpt·学术写作·chatgpt-o3·deep reaserch
盈达科技2 天前
[盈达科技】GEO(生成式引擎优化)实战指南:从认知重构、技术落地到内容突围的三维战略
人工智能·chatgpt
Feel_狗焕3 天前
transformer架构详解由浅入深-大模型入坑笔记真的很详细
chatgpt·llm
赵钰老师3 天前
【大语言模型DeepSeek+ChatGPT+python】最新AI-Python机器学习与深度学习技术在植被参数反演中的核心技术应用
人工智能·arcgis·语言模型·chatgpt·数据分析
Awesome Baron4 天前
《Learning Langchain》阅读笔记2-基于 Gemini 的 Langchain PromptTemplate 实现方式
jupyter·chatgpt·langchain·llm
背太阳的牧羊人4 天前
用 MongoIndexStore 实现对话存档和恢复 & 实现“多用户、多对话线程”场景(像一个 ChatGPT 对话列表那样)
mongodb·chatgpt·llamaindex·对话存档·持久化存储聊天
john_hjy4 天前
人类行为的原动力是自我保存-来自ChatGPT
chatgpt
明明跟你说过4 天前
LangChain + 文档处理:构建智能文档问答系统 RAG 的实战指南
人工智能·python·语言模型·自然语言处理·chatgpt·langchain·gpt-3