接力DeepSeek,阶跃星辰直接开源两款国产多模态大模型

两款 Step 系列开源多模态大模型,性能位列开源多模态全行业第一。

本周二,国内 AI 创业公司阶跃星辰和吉利汽车集团宣布联合开源两款多模态大模型。

这两款大模型分别是视频生成模型 Step-Video-T2V 和行业内首款产品级开源语音交互模型 Step-Audio。根据官方的测评报告,目前 Step-Video-T2V 是全球范围内参数量最大、性能最好的开源视频生成模型。

Step-Video-T2V 模型部署及技术报告链接:

和此前引爆全球科技界的 DeepSeek R1 一样,阶跃星辰的 Step-Video-T2V 视频生成模型,采用最为宽松的 MIT 许可协议,支持免费商用、任意修改和衍生开发,为开源社区带来了新的技术思路启发。这次发布也意味着阶跃星辰成为大模型开源世界的又一股中国力量。

与此同时,两款大模型均已可以在**「跃问」App** 上进行体验,视频模型还可以在桌面端使用:yuewen.cn/videos

阶跃星辰的大模型在 AI 社区引发了关注。Hugging Face 工程师、前谷歌 TensorFlow 团队成员 Tiezhen Wang 表示,阶跃星辰简直就是下个 DeepSeek:

Hugging Face 官推也转贴了他的评论。

GPT-J 作者 Aran Komatsuzaki 贴出了用新模型生成的视频。

更多网友对国内 AI 公司对开源社区的贡献表示了欢迎。

最强开源视频模型

会运镜、生成形象好、还擅长运动

初步体验一下,可以感觉到 Step-Video-T2V 显著提升了视频生成 AI 能力的上限。我们看看目前人们用跃问视频生成的效果。

首先要关注的是在电影、视频短片中最显制作者「功力」的镜头调度能力:

视频详情

Step-Audio 的反应速度很快,生成的语音也非常自然,还具备不错的情商。据悉,Step-Audio 也能实现高质量音色复刻和角色扮演,可满足影视娱乐、社交、游戏等行业场景的应用。

在 LlaMA Question、Web Questions 等五大主流公开测试集上,Step-Audio 的性能均超过行业内同类型开源模型,位列第一。另外,Step-Audio 在汉语水平考试六级 HSK-6 评测中的表现尤为突出,成为了最懂中国话的开源语音交互大模型

此外,根据阶跃自建并开源的多维度评估体系 StepEval-Audio-360 基准测试显示,Step-Audio 在逻辑推理、创作能力、指令控制、语言能力、角色扮演、文字游戏、情感价值等维度均取得了最佳成绩。

具体来说,Step-Audio 的技术探索为多模态开源社区带来了五个方面的贡献:

  • 多模态理解生成一体化:单模型完成语音识别、语义理解、对话、语音生成等功能,并开源了千亿参数多模态模型 Step-Audio-Chat 版本;

  • 高效合成数据链路:Step-Audio 突破传统 TTS 对人工采集数据的依赖,能生成高质量的合成音频数据,实现合成数据生成与模型训练的循环迭代,并同步开源了首个基于大规模合成数据训练,支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B;

  • 精细语音控制:支持多种情绪(如生气、高兴、悲伤)、方言(如粤语、四川话)和唱歌(包括 RAP、干声哼唱)的精准调控;

  • 扩展工具调用:通过 ToolCall 机制,Step-Audio 能够集成搜索引擎、知识库等外部工具,进一步提升其在 Agents 和复杂任务上的表现;

  • 高情商对话与角色扮演:基于情感增强与角色扮演强化的 RLHF 流程,提供了人性化回应并支持定制化角色设定。

  • GitHub 链接:github.com/stepfun-ai/...

  • Hugging Face:huggingface.co/collections...

  • Modelscope:modelscope.cn/collections...

  • 技术报告:github.com/stepfun-ai/...

「多模态卷王」阶跃星辰

正成为新锐开源力量

ChatGPT 发布仅过去两年,生成式 AI 领域已经历了翻天覆地的变化。我们见证了巅峰时期 300 家大模型的同台竞技,转变成「大模型 n 小龙」在不同赛道上的努力探索。自去年底,DeepSeek 的爆发又仿佛一阵强心剂,激起了业界新一轮更加激烈的竞争。

新的局面下,GPU 数量和数据体量优势不再是创业公司难以逾越的壁垒。与此同时,一些坚持技术路线的公司正在逐渐显现优势。

与很多逐渐转向应用侧的大模型公司不同,阶跃一直专注于技术驱动的发展思路,不断投入资源迭代基础模型。凭借技术的深厚积累,阶跃星辰一直在多模态领域领先业界。

从产品布局来看,阶跃的大模型涵盖语音识别、语音复刻及生成模型、视频理解模型、图像生成模型、视频生成模型、多模态理解等各种类别,而且研发速度极快,自成立以来已先后发布了 11 款。

从成绩上看,阶跃的 Step 系列多模态模型曾多次在国内外权威大模型评测榜单上位列「中国大模型第一」。不论开源社区还是合作伙伴,都已对阶跃的大模型有了充分的认可。

在 OpenCompass 多模态模型评测实时榜单上,Step-1o 大模型名列业内第一。

真正以构建 AGI 为最终目标的团队,必然会选择坚持预训练和基座大模型的研发。阶跃星辰曾披露过自己的 AGI 路线图,「单模态 ------ 多模态 ------ 多模理解和⽣成的统⼀ ------ 世界模型 ------AGI」。

这样的思路在今天发布的 Step-Video-T2V 技术报告中有了体现。阶跃星辰定义了构建视频基础模型的两个级别:

  • Level 1 是翻译视频的基础模型。此类模型可充当跨模态翻译系统,能够从文本、视觉或多模态上下文生成视频。目前基于扩散的文本转视频模型如 Sora、Veo、Kling、Hailuo 和 Step-Video 系列都属于 Level 1。

  • Level 2 则是「可预测视频基础模型」。此级别的模型充当预测系统,类似于大语言模型(LLM),可以根据文本、视觉或多模态上下文预测未来事件,并处理更高级的任务,例如使用多模态数据进行推理或模拟真实世界场景。

技术报告中,工程师们介绍了开发 Level 2 级视频基础模型需要解决的关键问题。如果我们能够对视频中潜在的因果关系进行建模,就能够生成更加复杂的动作序列,以及真正遵守物理定律的视频,让多模态拥有像如今 LLM 中涌现的「推理」。

这样的理念与李飞飞和她在 World Labs 中的工作不谋而合。可见在多模态大模型领域,新的方向已逐渐清晰。

可以预见,DeepSeek 爆发之后,更多的国内领先开源技术将会兴起,成为 AI 领域中不可忽视的力量。

相关推荐
Hello world.Joey几秒前
数据挖掘入门-二手车交易价格预测
人工智能·python·数据挖掘·数据分析·conda·pandas
愚公搬代码3 分钟前
【愚公系列】《Manus极简入门》036-物联网系统架构师:“万物互联师”
人工智能·物联网·系统架构·agi·ai agent·智能体·manus
君臣Andy11 分钟前
AI 搜索引擎 MindSearch
人工智能·ai 搜索引擎
小洛~·~14 分钟前
多模态RAG与LlamaIndex——1.deepresearch调研
人工智能·python·深度学习·神经网络·chatgpt
SunsPlanter14 分钟前
快速入门机器学习的专有名词
人工智能·机器学习
AndrewHZ20 分钟前
【图像处理基石】遥感图像分析入门
图像处理·人工智能·深度学习·计算机视觉·遥感图像·技术分析·多光谱
石臻臻的杂货铺24 分钟前
推荐几个常用免费的文本转语音工具
人工智能·语音识别
Thanks_ks26 分钟前
人工智能技术演进:从多模态融合到智能体落地的实践探索
人工智能·多模态融合·技术趋势·智能体 ai·小模型优化·rag 技术·代码实践
uesowys37 分钟前
阿里云人工智能大模型通义千问Qwen3开发部署
人工智能·阿里云·qwen3
摆烂仙君1 小时前
浅论3DGS溅射模型在VR眼镜上的应用
人工智能·深度学习·vr