【新智元导读】AI 音乐,从此进入「会思考」的时代!刚刚,昆仑万维扔出一枚重磅炸弹------全球首款音乐推理大模型 Mureka O1 横空出世,实力碾压 Suno,强势登顶 TOP 1。
国内首个音乐 ChatGPT,刚刚又迎来了震撼升级。
就在刚刚,昆仑万维发布了全球首款音乐推理大模型 Mureka O1,一举把 Suno 拉下王座,登顶 TOP 1。
可以说,这个全球首发的模型,自今日起直接开启了 AI 音乐的工业革命,彻底重塑了音乐创作范式!
首先,这次的基座模型 Mureka V6,就已经大大优化。
而在此基础上,它的推理优化版本 Mureka O1 更是强到发指,因为它融入了 CoT 技术,学会了思考!
学会思考的音乐 AI 模型,当然比普通的音乐 AI,更多了那么一丝「人味」。
基座模型 Mureka V6:引入 ICL 技术,声场更开阔,人声质感和混音设计强化
首款音乐推理大模型 Mureka O1:学会思考,音乐的结构连贯性、乐器编排精准度大提升
更劲爆的是,Mureka V6 如今还能支持 10 种语言,基本把全球主要国家和用户一网打尽。可以想见,它离引爆全球音乐市场的一天,已经不远了!
而现在,AI 也能独立出专辑了!《Mureka》AI 音乐人 MV 全网首发,该作品由 AI 生成,Mureka 负责声乐,SkyReels 操刀动画。
从音乐到数字人的形象,可与韩国女团同台 PK,简直声画双绝。
Mureka V6:一键十种语言,BGM 随心造
而对于那些对音频质量要求没那么高、又想尝试玩一把音乐的人,选用最新升级后的 Mureka V6 就够了。
它最大的亮点在于,可支持纯音乐的生成,以及 10 种语言的 AI 音乐创作,包括英语、西班牙语、中文、日语、韩语、葡萄牙语、德语、意大利语、法语、俄语。
同时,相较于上一代 V5.5,在人声清晰度、专业混音、编曲歌词等方面,得到了显著提升。
Mureka V6 一次就可以生成 4.5 分钟的音频,足够一首歌的时间了。
现在,就让我们来上手实测一番它的音乐创作功能。
文本框内输入「Latin song」,拉丁风的音乐《Amores Meos》就快速生成了!
每次 Mureka V6 都会一次性生成两首音乐,这次一共有一首纯音乐,一首西语歌曲。
风格热情奔放,节奏明快,一秒就能把你带到洒着阳光的地中海海岸线,随着街拍自由舞动。
再试一试,让 V6 生成一首浪漫梦幻的法语香颂,果然充满了法式的优雅和浪漫,旋律轻柔迷人,让人仿佛漫步在月光下的塞纳河畔。
前面已经提过,只要一句 Prompt,Mureka V6 就能一键定制与想要场景契合的 BGM。
比如可以让它为一段电影生成带有铜管和弦乐的史诗般管弦乐高潮,用于英雄时刻的镜头。
它生成的这段 BGM,由恢宏激越转向平静浪漫,又逐渐高潮迭起,一层一层将情绪推向最高潮。
让我们再试试它为 Vlog 配音的效果,用欢快的尤克里里配以轻柔的钢琴,为生活和烹饪 Vlog 生成一段 BGM。
果然,这段旋律轻松惬意,仿佛充满阳光,画面感十足。
超越 Suno,Mureka O1 稳坐 AI 音乐王座
不久以前,DeepSeek-R1 凭借思维链(CoT)技术显著提升了模型的智能水平,迅速火爆全球。
那你能想到,当 CoT 被应用到音乐领域,会创造出怎样的奇迹吗?
当 CoT 首次应用到音乐
今天,Mureka O1 全球首次将 CoT 用到了音乐生成领域,这一创举彻底颠覆了传统 AI 音乐生成范式。
CoT 的核心在于「思考与优化」,它让模型在生成音乐之前,先进行多步骤推理和自我批判。
这种「类人脑」的生成逻辑,使得 Mureka O1 在歌词旋律契合度、演唱准确性、艺术表现力上达到前所未有的高度。
从技术演进上看,Mureka O1 并非一蹴而就。
去年,Mureka 团队发布了初代 Mureka V1(SkyMusic),并在近一年时间里持续迭代升级。
如今,全新基座模型 Mureka V6 横空出世,首次引入 ICL(in-context learning)后,显著强化了声场开阔度、人声质感、混音设计。
而 Mureka O1 正是基于 Mureka V6 之上的「推理增强版」,在 CoT 加持下,将音乐品质推向极致。
在与主流音乐模型 Suno V4 等主流客观评测中,O1 以压倒性优势,证明了自己的王者地位。
评测选用了 100 条英文 Prompt,每款模型在相同的提示下,分别生成 100 条英文歌曲进行横向对比。
结果可以看出,Mureka O1 在发音错词率、乐段准确率、制作质量等客观指标,在行业中处于领先位置。
|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| |
|
Mureka O1 在文本生成音乐的客观测评中得分
当然,音乐的魅力最终取决于人的聆听体验,因此主观与客观评价缺一不可。
主观测评中,Mureka O1 以出色的音乐品质全面超越 Suno V4,尤其在整体听感上占据优势。
而且,其乐器演奏的多样性与配器设计的精妙程度远超对手,同时在音质、人声表现,以及 BGM 质感上实现显著提升。
Mureka O1 在主观测评中整体听感超越 Suno V4
不仅如此,O1/V6 的生成速度,也令人叹服。
不管是生成音乐的耗时,还是可完整下载的耗时,它们皆能完胜对手,能提供即时、高质量的创作体验。
Mureka O1 实现了行业领先的低延时音乐生成
无论是发音清晰程度,还是生成乐段的精准度与自然结束率,Mureka O1 都稳稳占据 AI 音乐的「C 位」。
能够碾压 Suno V4,它的秘密武器是什么?
业界首创 MusiCoT 框架
Mureka O1 的背后,是团队倾力打造的 MusiCoT 框架。
这不仅是 CoT 在音乐领域的首次应用,更是一次结构化生成的革命性尝试。
论文地址:MusiCoT.github.io
MusiCoT 跳脱了传统模型的局限,先通过全局视角预生成音乐结构,在精细化填充音频细节。
具体来说,从主歌、副歌到过渡段,再到细粒度音频 token 的填充中。
这种「从宏观到微观」的生成逻辑,确保了音乐在连贯性、层次感、艺术性上的极致表现。
更令人惊叹的是,MusiCoT 基于 CLAP 模型构建,无需人工标注即具备高扩展性,大幅提升生成音乐可解释性与艺术感染力。
只需要输入一个场景提示,Mureka O1 几秒内即可输出媲美专业水准的音乐作品。
Mureka O1 还提供独立的人声、伴奏等多轨输出,极大方便用户后续混音与二次创作。
可以说,MusiCoT 为高保真 AI 音乐生成开辟了全新路径,推动音乐 AI 创作迈入结构化时代。
开放 API,共建 AI 音乐开发者生态
面向企业和开发者,Mureka 同时开放两大类灵活的 API 服务,不仅包括音乐音频生成 API,还有语音合成 API。
1. 音乐 API
-
**标准音乐生成 API:**支持多种输入包括文本提示、音色参考、音频参考的音乐生成,歌词创作。通过不同维度的输入,系统可生产多风格音乐及纯音乐,适用于内容创作、游戏配乐、短视频等多场景应用
-
**精调私有曲库 API:**上传私有曲库定制专属风格,模型精调技术深度解析每一首旋律风格偏好,无需音乐知识也可轻松定制品牌音乐、个人专辑等专属内容
2. 语音 API
- AI 语音播客、精品说话人、音色克隆等 API,用于语音播客、预制精品音色语音合成、音色克隆等场景
不仅如此,Mureka 也同步开发前沿语音合成 API:Mureka TTS。
Mureka TTS 在与 ElevenLabs、OpenAI、微软的横向评测中表现出色,对话聊天类全场景效果与一线厂商不相上下。
在聊天对话类文本数据上,Mureka TTS 整体听感达到了 4.34 分
Mureka 成为全球首个开放模型微调的 AI 音乐平台,并开放了基于最新 V6 模型微调服务。
开发者可上传私有数据,训练专属模型,而且数据严格保密,不会被用于基座模型的训练。
有了这项功能,不论是音乐人、制作人,还是品牌与游戏开发者,都能打造出独一无二的专辑。
要知道,Mureka 的 10 种语言,基本包圆了全球大部分国家和地区。
而这,就意味着 ToB 巨大的市场规模!
目前,Mureka 已经拥有了超过 100 多个国家和地区的用户。而在以往的出海经验中,昆仑万维已经观察到,内容、娱乐赛道的用户和收入增长都十分明显。
其实在这方面,昆仑万维已经拥有了成功先例,比如之前推出的一款 K 歌产品 Star Maker,已经在海外几十个国家上线,历史注册用户直接突破 3.1 亿。
而内容和娱乐赛道 C 端应用的特点,就是用户对 AI 输出容错率较高,因此也拥有极高的市场上限。全球 80 亿人即使只有 1% 的用户买单,也会形成惊人的规模收入!
一句话就是,Mureka 的商业化前景,潜力惊人。
AI 音乐市场爆发,Mureka 解锁新世界
音乐是人类情感的共鸣,而 AI 正在让它变得更丰富、更触手可及。
市场数据,也从印证了 AI 生成音乐领域的无限潜力。
Fortune Business Insights 数据显示,2023 年全球数字音频工作站(DAW)市场规模已达约 30 亿美元,预计到 2026 年,约 70% 的 DAW 企业将使用 AI 技术辅助音乐创作。
进一步市场研究表明,GlobeNewswire 预测全球 DAW 市场规模到 2032 年将超过 66.2 亿美元,2024 年 - 2032 年的复合年增长率为 8.6%。
昆仑万维敏锐地捕捉这一风口,以「All in AGI 与 AIGC」战略驱动,在实现 AGI 道路上步履不停。
Mureka 正是这一布局的明星选手,它不仅体现了昆仑万维将技术转化为生产力的决心,也让我们看到一个更宏大的愿景------让每个人更好地塑造和表达自我。
值得一提的是,Mureka 的名字源自「Music」和「Eureka」的结合,寓意灵感迸发的「尤里卡时刻」。
它不仅仅是一款工具,更是 AI 音乐浪潮中的先行者,赋能每个人成为创作者。
如今,Mureka 已蓄势待发,等你来解锁它的无限可能。