接力DeepSeek,阶跃星辰直接开源两款国产多模态大模型

两款 Step 系列开源多模态大模型,性能位列开源多模态全行业第一。

本周二,国内 AI 创业公司阶跃星辰和吉利汽车集团宣布联合开源两款多模态大模型。

这两款大模型分别是视频生成模型 Step-Video-T2V 和行业内首款产品级开源语音交互模型 Step-Audio。根据官方的测评报告,目前 Step-Video-T2V 是全球范围内参数量最大、性能最好的开源视频生成模型。

Step-Video-T2V 模型部署及技术报告链接:

和此前引爆全球科技界的 DeepSeek R1 一样,阶跃星辰的 Step-Video-T2V 视频生成模型,采用最为宽松的 MIT 许可协议,支持免费商用、任意修改和衍生开发,为开源社区带来了新的技术思路启发。这次发布也意味着阶跃星辰成为大模型开源世界的又一股中国力量。

与此同时,两款大模型均已可以在**「跃问」App** 上进行体验,视频模型还可以在桌面端使用:yuewen.cn/videos

阶跃星辰的大模型在 AI 社区引发了关注。Hugging Face 工程师、前谷歌 TensorFlow 团队成员 Tiezhen Wang 表示,阶跃星辰简直就是下个 DeepSeek:

Hugging Face 官推也转贴了他的评论。

GPT-J 作者 Aran Komatsuzaki 贴出了用新模型生成的视频。

更多网友对国内 AI 公司对开源社区的贡献表示了欢迎。

最强开源视频模型

会运镜、生成形象好、还擅长运动

初步体验一下,可以感觉到 Step-Video-T2V 显著提升了视频生成 AI 能力的上限。我们看看目前人们用跃问视频生成的效果。

首先要关注的是在电影、视频短片中最显制作者「功力」的镜头调度能力:

视频详情

Step-Audio 的反应速度很快,生成的语音也非常自然,还具备不错的情商。据悉,Step-Audio 也能实现高质量音色复刻和角色扮演,可满足影视娱乐、社交、游戏等行业场景的应用。

在 LlaMA Question、Web Questions 等五大主流公开测试集上,Step-Audio 的性能均超过行业内同类型开源模型,位列第一。另外,Step-Audio 在汉语水平考试六级 HSK-6 评测中的表现尤为突出,成为了最懂中国话的开源语音交互大模型

此外,根据阶跃自建并开源的多维度评估体系 StepEval-Audio-360 基准测试显示,Step-Audio 在逻辑推理、创作能力、指令控制、语言能力、角色扮演、文字游戏、情感价值等维度均取得了最佳成绩。

具体来说,Step-Audio 的技术探索为多模态开源社区带来了五个方面的贡献:

  • 多模态理解生成一体化:单模型完成语音识别、语义理解、对话、语音生成等功能,并开源了千亿参数多模态模型 Step-Audio-Chat 版本;

  • 高效合成数据链路:Step-Audio 突破传统 TTS 对人工采集数据的依赖,能生成高质量的合成音频数据,实现合成数据生成与模型训练的循环迭代,并同步开源了首个基于大规模合成数据训练,支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B;

  • 精细语音控制:支持多种情绪(如生气、高兴、悲伤)、方言(如粤语、四川话)和唱歌(包括 RAP、干声哼唱)的精准调控;

  • 扩展工具调用:通过 ToolCall 机制,Step-Audio 能够集成搜索引擎、知识库等外部工具,进一步提升其在 Agents 和复杂任务上的表现;

  • 高情商对话与角色扮演:基于情感增强与角色扮演强化的 RLHF 流程,提供了人性化回应并支持定制化角色设定。

  • GitHub 链接:github.com/stepfun-ai/...

  • Hugging Face:huggingface.co/collections...

  • Modelscope:modelscope.cn/collections...

  • 技术报告:github.com/stepfun-ai/...

「多模态卷王」阶跃星辰

正成为新锐开源力量

ChatGPT 发布仅过去两年,生成式 AI 领域已经历了翻天覆地的变化。我们见证了巅峰时期 300 家大模型的同台竞技,转变成「大模型 n 小龙」在不同赛道上的努力探索。自去年底,DeepSeek 的爆发又仿佛一阵强心剂,激起了业界新一轮更加激烈的竞争。

新的局面下,GPU 数量和数据体量优势不再是创业公司难以逾越的壁垒。与此同时,一些坚持技术路线的公司正在逐渐显现优势。

与很多逐渐转向应用侧的大模型公司不同,阶跃一直专注于技术驱动的发展思路,不断投入资源迭代基础模型。凭借技术的深厚积累,阶跃星辰一直在多模态领域领先业界。

从产品布局来看,阶跃的大模型涵盖语音识别、语音复刻及生成模型、视频理解模型、图像生成模型、视频生成模型、多模态理解等各种类别,而且研发速度极快,自成立以来已先后发布了 11 款。

从成绩上看,阶跃的 Step 系列多模态模型曾多次在国内外权威大模型评测榜单上位列「中国大模型第一」。不论开源社区还是合作伙伴,都已对阶跃的大模型有了充分的认可。

在 OpenCompass 多模态模型评测实时榜单上,Step-1o 大模型名列业内第一。

真正以构建 AGI 为最终目标的团队,必然会选择坚持预训练和基座大模型的研发。阶跃星辰曾披露过自己的 AGI 路线图,「单模态 ------ 多模态 ------ 多模理解和⽣成的统⼀ ------ 世界模型 ------AGI」。

这样的思路在今天发布的 Step-Video-T2V 技术报告中有了体现。阶跃星辰定义了构建视频基础模型的两个级别:

  • Level 1 是翻译视频的基础模型。此类模型可充当跨模态翻译系统,能够从文本、视觉或多模态上下文生成视频。目前基于扩散的文本转视频模型如 Sora、Veo、Kling、Hailuo 和 Step-Video 系列都属于 Level 1。

  • Level 2 则是「可预测视频基础模型」。此级别的模型充当预测系统,类似于大语言模型(LLM),可以根据文本、视觉或多模态上下文预测未来事件,并处理更高级的任务,例如使用多模态数据进行推理或模拟真实世界场景。

技术报告中,工程师们介绍了开发 Level 2 级视频基础模型需要解决的关键问题。如果我们能够对视频中潜在的因果关系进行建模,就能够生成更加复杂的动作序列,以及真正遵守物理定律的视频,让多模态拥有像如今 LLM 中涌现的「推理」。

这样的理念与李飞飞和她在 World Labs 中的工作不谋而合。可见在多模态大模型领域,新的方向已逐渐清晰。

可以预见,DeepSeek 爆发之后,更多的国内领先开源技术将会兴起,成为 AI 领域中不可忽视的力量。

相关推荐
计算机毕业设计指导3 分钟前
基于ResNet50的智能垃圾分类系统
人工智能·分类·数据挖掘
飞哥数智坊7 分钟前
终端里用 Claude Code 太难受?我把它接进 TRAE,真香!
人工智能·claude·trae
小王爱学人工智能40 分钟前
OpenCV的阈值处理
人工智能·opencv·计算机视觉
新智元1 小时前
刚刚,光刻机巨头 ASML 杀入 AI!豪掷 15 亿押注「欧版 OpenAI」,成最大股东
人工智能·openai
机器之心1 小时前
全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
人工智能·openai
新智元1 小时前
2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没
人工智能·openai
湫兮之风1 小时前
OpenCV: Mat存储方式全解析-单通道、多通道内存布局详解
人工智能·opencv·计算机视觉
机器之心1 小时前
Claude不让我们用!国产平替能顶上吗?
人工智能·openai
程序员柳1 小时前
基于YOLOv8的车辆轨迹识别与目标检测研究分析软件源代码+详细文档
人工智能·yolo·目标检测
算家计算1 小时前
一站式高质量数字人动画框架——EchoMimic-V3本地部署教程: 13 亿参数实现统一多模态、多任务人体动画生成
人工智能·开源