全球最大开源视频模型，现在也 Created in China 了，阶跃出品

刚刚，阶跃星辰联合吉利汽车集团，开源了两款多模态大模型！

新模型共 2 款：

多模态卷王开始开源多模态模型，其中 Step-Video-T2V 采用的还是最为开放宽松的 MIT 开源协议，可任意编辑和商业应用。

（老规矩，GitHub、抱抱脸、魔搭直通车可见文末）

在两款大模型的研发过程中，双方在算力算法、场景训练等领域优势互补，"显著增强了多模态大模型的性能表现"。

从官方公布的技术报告来看，这次开源的两款模型在 Benchmark 中表现优秀，性能超过国内外同类开源模型。

抱抱脸官方也转发了中国区负责人给予的高度评价。

划重点，"The next DeepSeek"、"HUGE SoTA"。

哦，是吗？

那量子位可要在本篇文章中掰开技术报告 + 一手实测，看看它们是否名副其实。

量子位求证，目前，本次 2 款新的开源模型都已接入跃问 App，人人可以体验。

多模态卷王首次开源多模态模型

Step-Video-T2V 和 Step-Audio，是阶跃星辰首次开源的多模态模型。

先来看看视频生成模型 Step-Video-T2V。

它的参数量达到 30B，是目前已知全球范围内参数量最大的开源视频生成大模型，原生支持中英双语输入。

官方介绍，Step-Video-T2V 共有 4 大技术特点：

第一，可直接生成最长 204 帧、540P 分辨率的视频，确保生成的视频内容具有极高的一致性和信息密度。

第二，针对视频生成任务设计并训练了高压缩比的 Video-VAE，在保证视频重构质量的前提下，能够将视频在空间维度压缩 16×16 倍，时间维度压缩 8 倍。

当下市面上多数 VAE 模型压缩比为 8x8x4，在相同视频帧数下，Video-VAE 能额外压缩 8 倍，故而训练和生成效率都提升 64 倍。

第三，针对 DiT 模型的超参设置、模型结构和训练效率，Step-Video-T2V 了进行深入的系统优化，确保训练过程的高效性和稳定性。

第四，详细介绍了预训练和后训练在内的完整训练策略，包括各阶段的训练任务、学习目标以及数据构建和筛选方式。

此外，Step-Video-T2V 在训练最后阶段引入 Video-DPO（视频偏好优化）------这是一种针对视频生成的 RL 优化算法，能进一步提升视频生成质量，强化生成视频的合理性和稳定性。

最终效果，是让所生成视频中的运动更流畅、细节更丰富、指令对齐更准确。

为了全面评测开源视频生成模型的性能，阶跃此次一并发布了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。

该数据集也一并开源了～

它包含 128 条源于真实用户的中文评测问题，旨在评估生成视频在 11 个内容类别上的质量，包括运动、风景、动物、组合概念、超现实等等。

Step-Video-T2V-Eval 在其上的评测结果，见下图：

可以看到，Step-Video-T2V 在指令遵循、运动平滑性、物理合理性、美感度等方面，表现均超越此前最佳的开源视频模型。

这意味着，整个视频生成领域，都可以基于这个新的最强基础模型来进行研究与创新。

而实际效果方面，阶跃官方介绍：

生成效果，Step-Video-T2V 在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力，且语义理解和指令遵循能力突出，能够高效助力视频创作者实现精准创意呈现。

还等什么？实测走起------

按照官方介绍的顺序，第一关，测试 Step-Video-T2V 能否 hold 住复杂运动。

之前的视频生成模型，在生成芭蕾 / 国标 / 中国舞、艺术体操、空手道、武术等各类复杂性运动片段中，总会出现奇奇怪怪的画面。

比如突然冒出来的第三条腿，交叉融合的双臂等等，怪吓人的。

针对这类情况，我们进行定向测试，丢给 Step-Video-T2V 一段 prompt：

室内羽毛球场，平视视角，固定镜头记录了一段男子打羽毛球的场景。一名身穿红色短袖、黑色短裤的男子，手持羽毛球拍，站在绿色的羽毛球场地中央。球网横跨场地，将场地分为两部分。男子挥拍击球，将羽毛球击向对面。光线明亮均匀，画面清晰。

阶跃团队介绍，Step-Audio 能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达，能和用户自然地高质量对话。

同时，由其生成的语音不仅具有逼真自然、高情商等特征，还能实现高质量的音色复刻并进行角色扮演。

总之，影视娱乐、社交、游戏等行业场景下应用需求，Step-Audio 包让你一整个大满足的。

怎么说呢，就一个字：卷。

阶跃是真卷啊，尤其是在自家拿手好戏多模态模型方面------

旗下 Step 系列中的多模态模型，自打出生以来，就是国内外各大权威评测集、竞技场等的第一名常客。

只看最近 3 个月，都已经数次勇夺榜首。

去年 11 月 22 日，大模型竞技场最新榜单，多模态理解大模型 Step-1V 上榜，总分与 Gemini-1.5-Flash-8B-Exp-0827 持平，位列视觉领域中国大模型第一。
今年 1 月，国内大模型评估平台 "司南"（OpenCompass）多模态模型评测实时榜单，刚出炉的 Step-1o 系列模型拿下第一。
同日，大模型竞技场最新榜单，多模态模型 Step-1o-vision 拿下国内视觉领域大模型第一。