一周六连发!昆仑万维将多模态AI卷到了新高度

鲨疯了!一周连发六款模型

火力全开的昆仑万维,正在把多模态 AI 卷到新高度。

8 月 11 日~ 15 日,这家公司天天都有新模型掉落,覆盖的还都是视频生成、世界模型、统一多模态、智能体以及 AI 音乐创作这些大热门,几乎每一个都是多模态 AI 应用的核心场景

用表格总结一下 be like:

而且这当中的绝大部分模型还被昆仑万维给开!源!了!

u1s1,不怪网友们天天在昆仑万维官方评论区等待惊喜掉落(doge):

而且就在技术周开幕前,昆仑万维还成功入选 "中国 AI 开源 16 强",与腾讯、阿里等互联网大厂坐上了同一桌。

所以说,这个技术周的节点也显得格外耐人寻味------

表面上是一场高调的技术 "肌肉秀",但细究之下,背后其实藏着昆仑万维的一盘 AI 大棋。

单点突破,多模态能力全面开花

还是先来康康过去一周都发了啥_(按发布顺序展开)_。

SkyReels-A3:一张图开口带货 so easy!

一上来,昆仑万维就甩出了核心瞄准数字人直播带货 的 SkyReels-A3 模型。(毕竟目前光国内直播市场就已经逼近十万亿量级)

玩法呢主要有三种:

  • 让照片开口说话:一张人像图 + 一段配音,照片里的人就能按照指定语音开口说话或唱歌;

  • 根据指令生成新视频:一张人像图 + 一段配音 + 提示词,照片里的人还能按照要求的状态进行表演;

  • 改台词不换脸:换掉原来的音频,新视频会重新自动对口型、表情和表演,画面依旧连贯。

从官方 demo 来看,今后恐怕很难分清每天都在看的视频是真人出镜还是数字人了------其手部动作、说话的语气和节奏、口型等都非常自然。

视频详情

仅从提示词(摇滚、雨、爱与自由)来听,Mureka V7.5 明显更具摇滚味儿,更符合提示词。

此外,更多测评结果表明,不论是音乐性还是文本控制准确性,Mureka V7.5 均领先同类音乐模型。

同一时间,昆仑万维语音团队还推出了首个基于 MoE 的角色描述语音合成框架------MoE-TTS。

作为面向开放描述(Out-of-domain Descriptions)场景的全新框架,它能让用户通过自然语言描述_(例如 "清澈的少年音带磁性尾韵")_精准控制声音特征与风格。

在仅使用开源数据的条件下,对标甚至超越闭源商业产品的角色贴合度表现。

下图显示,在涵盖域内与域外描述的双测试集上,MoE-TTS 与主流闭源 TTS 模型相比,在风格表现力贴合度(SEA)和整体贴合度(OA)等声学控制上精准度领先,这也正是其在复杂描述匹配度上胜出的关键。

昆仑万维:持续在 AI 核心技术领域投入

至此小结一下昆仑万维技术周,不难发现这样几个特征:

多模态能力全面拉满 :从文本到语音 / 视频 / 图像等,各项技术都在往多模态方向延伸。

垂直领域深耕 :面对高频应用场景,模型一再快速刷新各领域 SOTA。

开源驱动生态:多款 SOTA 模型开放权重与代码,推动行业迭代。

结合昆仑万维在 AI 方面的布局,不得不说如今的成就并非偶然,而是其精心布局与持续投入的必然结果。

那么,这背后究竟是一盘怎样的大棋呢?梳理下来核心在于三方面。

首先是战略定力。

早在 ChatGPT 卷起这轮 AI 浪潮的 2023 年初,昆仑万维就从顶层设计上率先确立了 "All in AGI 与 AIGC" 的战略。

这一前瞻性的战略决策,不仅体现了公司对 AI 未来发展的深刻洞察,也为昆仑万维在 AI 领域持续深耕奠定了坚实基础。

受此战略指引,过去三年他们在视觉多模态、深度学习、强化学习等核心技术领域持续投入,在 AI 上倾注了实打实的人力、物力、财力。

这一点可以通过昆仑万维 2024 以及 2025 年一季度财报体现:

  • 研发投入节节高:2024 全年研发费用为 15.4 亿元,同比增长 59.5%,占总营收比重的 27% 以上。今年一季度研发费用为 4.3 亿元,同比增长 23%,约占营收的 26%。

  • 研发人员在国内 AI 企业中跻身前列:2024 年其研发团队达到 1554 人,占总人数的 73.41%。

如此重押之下,昆仑万维也先后推出了多项重磅产品与平台------包括天工超级智能体(Skywork Super Agents)、AI 音乐创作平台 Mureka、AI 短剧平台 SkyReels、AI 社交产品 Linky 等,形成了 "AI 前沿基础研究------基座模型------AI 矩阵产品 / 应用" 的全栈式 AI 产业链

当然,这些产品的选择,实际上也揭示了昆仑万维的另一个关键策略:

技术上全面开花,应用上却狠狠瞄准垂直领域。

在 WAIC 2025 大会上,昆仑万维董事长兼 CEO 方汉提出了一个与众不同的观点。在行业普遍追逐 "超级应用" 和通用 Agent 的热潮中,他认为通用 Agent 在逻辑上不成立,垂直领域的深度优化才是未来

绝大多数行业,数据虽多,却缺乏揭示 "如何做" 的过程记录。因此,通用大模型无法在所有行业都达到理想的智能水平,这为深耕特定行业的垂直 Agent 留下了巨大的发展空间。

而且从全球大模型调用数据来看,他认为只有那些能够融入用户日常工作流、被高频使用的应用,才能产生巨大的商业价值和用户粘性。

这些都为昆仑万维的 AI 应用落地指明了方向------垂直领域 + 高频应用场景

**△**图源:昆仑万维公众号

当完成从技术→应用落地的关键一环后,昆仑万维最后用开源补齐了整个链条。相比一些同行选择闭源,昆仑万维在多个关键节点坚持开源,持续贡献高质量模型和工具。

在业内,这不仅帮助公司建立起技术话语权,也在吸引更多开发者、合作伙伴加入,从而形成 "技术---社区---应用" 的正向循环。事实也证明,该公司已经凭借开源成果入选"中国 AI 开源 16 强",生态地位正在稳步提升。

综上所述,能够看到的是,昆仑万维正在加速推进其 AI 战略,并展现出强大的技术实力和商业潜力。作为国内 AI 企业第一梯队成员,其后续发展无疑值得资本关注。

可以说,技术周的落幕并非终点,而是昆仑万维 AI 征程新的起点。

欢迎在评论区留下你的想法!

--- ---

相关推荐
bug菌2 小时前
Trae如何快速辅助Java开发者进场AI编程?打破传统编程思维!
aigc·ai编程·trae
量子位2 小时前
16岁炒马斯克鱿鱼,SpaceX天才转投北大数学校友赵鹏麾下
ai编程
用户4099322502123 小时前
如何用Prometheus和FastAPI打造任务监控的“火眼金睛”?
后端·ai编程·trae
bug菌3 小时前
Java开发者还在被Python“碾压“?用Trae反击,让智能化应用开发快到飞起!
aigc·ai编程·trae
bug菌4 小时前
当AI遇上编程,传统IDE还能守住最后一道防线吗?Trae告诉你答案!
aigc·ai编程·trae
信码由缰6 小时前
软件开发中的 8 个伦理问题示例
ai编程
mCell7 小时前
Claude Code Sub-agent 模式的详解和实践
agent·ai编程·claude
bug菌7 小时前
还在羡慕ChatGPT?用Trae零基础打造你的专属AI聊天机器人!
aigc·ai编程·trae
bug菌7 小时前
还在羡慕别人的IDE功能强大?看Trae插件系统如何让你的开发环境"私人定制"!
aigc·ai编程·trae