一周六连发!昆仑万维将多模态AI卷到了新高度

鲨疯了!一周连发六款模型

火力全开的昆仑万维,正在把多模态 AI 卷到新高度。

8 月 11 日~ 15 日,这家公司天天都有新模型掉落,覆盖的还都是视频生成、世界模型、统一多模态、智能体以及 AI 音乐创作这些大热门,几乎每一个都是多模态 AI 应用的核心场景

用表格总结一下 be like:

而且这当中的绝大部分模型还被昆仑万维给开!源!了!

u1s1,不怪网友们天天在昆仑万维官方评论区等待惊喜掉落(doge):

而且就在技术周开幕前,昆仑万维还成功入选 "中国 AI 开源 16 强",与腾讯、阿里等互联网大厂坐上了同一桌。

所以说,这个技术周的节点也显得格外耐人寻味------

表面上是一场高调的技术 "肌肉秀",但细究之下,背后其实藏着昆仑万维的一盘 AI 大棋。

单点突破,多模态能力全面开花

还是先来康康过去一周都发了啥_(按发布顺序展开)_。

SkyReels-A3:一张图开口带货 so easy!

一上来,昆仑万维就甩出了核心瞄准数字人直播带货 的 SkyReels-A3 模型。(毕竟目前光国内直播市场就已经逼近十万亿量级)

玩法呢主要有三种:

  • 让照片开口说话:一张人像图 + 一段配音,照片里的人就能按照指定语音开口说话或唱歌;

  • 根据指令生成新视频:一张人像图 + 一段配音 + 提示词,照片里的人还能按照要求的状态进行表演;

  • 改台词不换脸:换掉原来的音频,新视频会重新自动对口型、表情和表演,画面依旧连贯。

从官方 demo 来看,今后恐怕很难分清每天都在看的视频是真人出镜还是数字人了------其手部动作、说话的语气和节奏、口型等都非常自然。

视频详情

仅从提示词(摇滚、雨、爱与自由)来听,Mureka V7.5 明显更具摇滚味儿,更符合提示词。

此外,更多测评结果表明,不论是音乐性还是文本控制准确性,Mureka V7.5 均领先同类音乐模型。

同一时间,昆仑万维语音团队还推出了首个基于 MoE 的角色描述语音合成框架------MoE-TTS。

作为面向开放描述(Out-of-domain Descriptions)场景的全新框架,它能让用户通过自然语言描述_(例如 "清澈的少年音带磁性尾韵")_精准控制声音特征与风格。

在仅使用开源数据的条件下,对标甚至超越闭源商业产品的角色贴合度表现。

下图显示,在涵盖域内与域外描述的双测试集上,MoE-TTS 与主流闭源 TTS 模型相比,在风格表现力贴合度(SEA)和整体贴合度(OA)等声学控制上精准度领先,这也正是其在复杂描述匹配度上胜出的关键。

昆仑万维:持续在 AI 核心技术领域投入

至此小结一下昆仑万维技术周,不难发现这样几个特征:

多模态能力全面拉满 :从文本到语音 / 视频 / 图像等,各项技术都在往多模态方向延伸。

垂直领域深耕 :面对高频应用场景,模型一再快速刷新各领域 SOTA。

开源驱动生态:多款 SOTA 模型开放权重与代码,推动行业迭代。

结合昆仑万维在 AI 方面的布局,不得不说如今的成就并非偶然,而是其精心布局与持续投入的必然结果。

那么,这背后究竟是一盘怎样的大棋呢?梳理下来核心在于三方面。

首先是战略定力。

早在 ChatGPT 卷起这轮 AI 浪潮的 2023 年初,昆仑万维就从顶层设计上率先确立了 "All in AGI 与 AIGC" 的战略。

这一前瞻性的战略决策,不仅体现了公司对 AI 未来发展的深刻洞察,也为昆仑万维在 AI 领域持续深耕奠定了坚实基础。

受此战略指引,过去三年他们在视觉多模态、深度学习、强化学习等核心技术领域持续投入,在 AI 上倾注了实打实的人力、物力、财力。

这一点可以通过昆仑万维 2024 以及 2025 年一季度财报体现:

  • 研发投入节节高:2024 全年研发费用为 15.4 亿元,同比增长 59.5%,占总营收比重的 27% 以上。今年一季度研发费用为 4.3 亿元,同比增长 23%,约占营收的 26%。

  • 研发人员在国内 AI 企业中跻身前列:2024 年其研发团队达到 1554 人,占总人数的 73.41%。

如此重押之下,昆仑万维也先后推出了多项重磅产品与平台------包括天工超级智能体(Skywork Super Agents)、AI 音乐创作平台 Mureka、AI 短剧平台 SkyReels、AI 社交产品 Linky 等,形成了 "AI 前沿基础研究------基座模型------AI 矩阵产品 / 应用" 的全栈式 AI 产业链

当然,这些产品的选择,实际上也揭示了昆仑万维的另一个关键策略:

技术上全面开花,应用上却狠狠瞄准垂直领域。

在 WAIC 2025 大会上,昆仑万维董事长兼 CEO 方汉提出了一个与众不同的观点。在行业普遍追逐 "超级应用" 和通用 Agent 的热潮中,他认为通用 Agent 在逻辑上不成立,垂直领域的深度优化才是未来

绝大多数行业,数据虽多,却缺乏揭示 "如何做" 的过程记录。因此,通用大模型无法在所有行业都达到理想的智能水平,这为深耕特定行业的垂直 Agent 留下了巨大的发展空间。

而且从全球大模型调用数据来看,他认为只有那些能够融入用户日常工作流、被高频使用的应用,才能产生巨大的商业价值和用户粘性。

这些都为昆仑万维的 AI 应用落地指明了方向------垂直领域 + 高频应用场景

**△**图源:昆仑万维公众号

当完成从技术→应用落地的关键一环后,昆仑万维最后用开源补齐了整个链条。相比一些同行选择闭源,昆仑万维在多个关键节点坚持开源,持续贡献高质量模型和工具。

在业内,这不仅帮助公司建立起技术话语权,也在吸引更多开发者、合作伙伴加入,从而形成 "技术---社区---应用" 的正向循环。事实也证明,该公司已经凭借开源成果入选"中国 AI 开源 16 强",生态地位正在稳步提升。

综上所述,能够看到的是,昆仑万维正在加速推进其 AI 战略,并展现出强大的技术实力和商业潜力。作为国内 AI 企业第一梯队成员,其后续发展无疑值得资本关注。

可以说,技术周的落幕并非终点,而是昆仑万维 AI 征程新的起点。

欢迎在评论区留下你的想法!

--- ---

相关推荐
AI袋鼠帝1 小时前
腾讯出手了!首款国产AI CLI真有点猛,支持微信登录
aigc·ai编程·腾讯
冷水鱼1 小时前
Qoder,不止是编程agent,也是文档神器
人工智能·ai编程
ITZHIHONH1 小时前
FastGPT源码解析 Agent 智能体应用创建流程和代码分析
ai·开源·ai编程
AI炼金师1 小时前
Alex Codes团队并入OpenAI Codex:苹果生态或迎来AI编程新篇章
aigc·ai编程
RainbowSea13 小时前
8. LangChain4j + 提示词工程详细说明
langchain·llm·ai编程
RainbowSea13 小时前
7. LangChain4j + 记忆缓存详细说明
langchain·llm·ai编程
GitLqr14 小时前
AI洞察 | 新一代 Agent 框架与 3D 桌面伴侣智能体
agent·ai编程·mcp
量子位17 小时前
Hinton万万没想到,前女友用ChatGPT跟他闹分手
chatgpt·ai编程
腾讯云云开发18 小时前
云开发CloudBase AI Coding创作者激励计划获奖作品集
ai编程·claude·小程序·云开发
因吹斯汀19 小时前
一饭封神:当AI厨神遇上你的冰箱,八大菜系大师在线battle!
前端·vue.js·ai编程