接力DeepSeek，阶跃星辰直接开源两款国产多模态大模型

两款 Step 系列开源多模态大模型，性能位列开源多模态全行业第一。

本周二，国内 AI 创业公司阶跃星辰和吉利汽车集团宣布联合开源两款多模态大模型。

这两款大模型分别是视频生成模型 Step-Video-T2V 和行业内首款产品级开源语音交互模型 Step-Audio。根据官方的测评报告，目前 Step-Video-T2V 是全球范围内参数量最大、性能最好的开源视频生成模型。

Step-Video-T2V 模型部署及技术报告链接：

和此前引爆全球科技界的 DeepSeek R1 一样，阶跃星辰的 Step-Video-T2V 视频生成模型，采用最为宽松的 MIT 许可协议，支持免费商用、任意修改和衍生开发，为开源社区带来了新的技术思路启发。这次发布也意味着阶跃星辰成为大模型开源世界的又一股中国力量。

与此同时，两款大模型均已可以在**「跃问」App** 上进行体验，视频模型还可以在桌面端使用：yuewen.cn/videos

阶跃星辰的大模型在 AI 社区引发了关注。Hugging Face 工程师、前谷歌 TensorFlow 团队成员 Tiezhen Wang 表示，阶跃星辰简直就是下个 DeepSeek：

Hugging Face 官推也转贴了他的评论。

GPT-J 作者 Aran Komatsuzaki 贴出了用新模型生成的视频。

更多网友对国内 AI 公司对开源社区的贡献表示了欢迎。

最强开源视频模型

会运镜、生成形象好、还擅长运动

初步体验一下，可以感觉到 Step-Video-T2V 显著提升了视频生成 AI 能力的上限。我们看看目前人们用跃问视频生成的效果。

首先要关注的是在电影、视频短片中最显制作者「功力」的镜头调度能力：

Step-Audio 的反应速度很快，生成的语音也非常自然，还具备不错的情商。据悉，Step-Audio 也能实现高质量音色复刻和角色扮演，可满足影视娱乐、社交、游戏等行业场景的应用。

在 LlaMA Question、Web Questions 等五大主流公开测试集上，Step-Audio 的性能均超过行业内同类型开源模型，位列第一。另外，Step-Audio 在汉语水平考试六级 HSK-6 评测中的表现尤为突出，成为了最懂中国话的开源语音交互大模型。

此外，根据阶跃自建并开源的多维度评估体系 StepEval-Audio-360 基准测试显示，Step-Audio 在逻辑推理、创作能力、指令控制、语言能力、角色扮演、文字游戏、情感价值等维度均取得了最佳成绩。

具体来说，Step-Audio 的技术探索为多模态开源社区带来了五个方面的贡献：

多模态理解生成一体化：单模型完成语音识别、语义理解、对话、语音生成等功能，并开源了千亿参数多模态模型 Step-Audio-Chat 版本；
高效合成数据链路：Step-Audio 突破传统 TTS 对人工采集数据的依赖，能生成高质量的合成音频数据，实现合成数据生成与模型训练的循环迭代，并同步开源了首个基于大规模合成数据训练，支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B；
精细语音控制：支持多种情绪（如生气、高兴、悲伤）、方言（如粤语、四川话）和唱歌（包括 RAP、干声哼唱）的精准调控；
扩展工具调用：通过 ToolCall 机制，Step-Audio 能够集成搜索引擎、知识库等外部工具，进一步提升其在 Agents 和复杂任务上的表现；
高情商对话与角色扮演：基于情感增强与角色扮演强化的 RLHF 流程，提供了人性化回应并支持定制化角色设定。
GitHub 链接：github.com/stepfun-ai/...
Hugging Face：huggingface.co/collections...
Modelscope：modelscope.cn/collections...
技术报告：github.com/stepfun-ai/...

「多模态卷王」阶跃星辰

正成为新锐开源力量

ChatGPT 发布仅过去两年，生成式 AI 领域已经历了翻天覆地的变化。我们见证了巅峰时期 300 家大模型的同台竞技，转变成「大模型 n 小龙」在不同赛道上的努力探索。自去年底，DeepSeek 的爆发又仿佛一阵强心剂，激起了业界新一轮更加激烈的竞争。

新的局面下，GPU 数量和数据体量优势不再是创业公司难以逾越的壁垒。与此同时，一些坚持技术路线的公司正在逐渐显现优势。

与很多逐渐转向应用侧的大模型公司不同，阶跃一直专注于技术驱动的发展思路，不断投入资源迭代基础模型。凭借技术的深厚积累，阶跃星辰一直在多模态领域领先业界。

从产品布局来看，阶跃的大模型涵盖语音识别、语音复刻及生成模型、视频理解模型、图像生成模型、视频生成模型、多模态理解等各种类别，而且研发速度极快，自成立以来已先后发布了 11 款。

从成绩上看，阶跃的 Step 系列多模态模型曾多次在国内外权威大模型评测榜单上位列「中国大模型第一」。不论开源社区还是合作伙伴，都已对阶跃的大模型有了充分的认可。

在 OpenCompass 多模态模型评测实时榜单上，Step-1o 大模型名列业内第一。

真正以构建 AGI 为最终目标的团队，必然会选择坚持预训练和基座大模型的研发。阶跃星辰曾披露过自己的 AGI 路线图，「单模态 ------ 多模态 ------ 多模理解和⽣成的统⼀ ------ 世界模型 ------AGI」。

这样的思路在今天发布的 Step-Video-T2V 技术报告中有了体现。阶跃星辰定义了构建视频基础模型的两个级别：

Level 1 是翻译视频的基础模型。此类模型可充当跨模态翻译系统，能够从文本、视觉或多模态上下文生成视频。目前基于扩散的文本转视频模型如 Sora、Veo、Kling、Hailuo 和 Step-Video 系列都属于 Level 1。
Level 2 则是「可预测视频基础模型」。此级别的模型充当预测系统，类似于大语言模型（LLM），可以根据文本、视觉或多模态上下文预测未来事件，并处理更高级的任务，例如使用多模态数据进行推理或模拟真实世界场景。

技术报告中，工程师们介绍了开发 Level 2 级视频基础模型需要解决的关键问题。如果我们能够对视频中潜在的因果关系进行建模，就能够生成更加复杂的动作序列，以及真正遵守物理定律的视频，让多模态拥有像如今 LLM 中涌现的「推理」。

这样的理念与李飞飞和她在 World Labs 中的工作不谋而合。可见在多模态大模型领域，新的方向已逐渐清晰。

可以预见，DeepSeek 爆发之后，更多的国内领先开源技术将会兴起，成为 AI 领域中不可忽视的力量。