语音 AI 迎来并购潮:Meta 收购 PlayAI 后,谁是下一个目标?WhatsApp 上线语音通话 API丨日报

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

1、阿里通义发布新版 Qwen3

7 月 22 日凌晨,阿里通义更新了旗下旗舰版 Qwen3 模型,推出 Qwen3-235B-A22B-FP8 非思考模式(Non-thinking)的更新版本,命名为 Qwen3-235B-A22B-Instruct-2507-FP8。

据悉,新的 Qwen3 模型,通用能力显著提升,包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面。

成绩表现上,新的 Qwen3 模型在 GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent 能力)等众多测评中表现出色,超过 Kimi-K2、DeepSeek-V3 等顶级开源模型以及 Claude-Opus4-Non-thinking 等领先闭源模型。

此外,本次更新的 Qwen3 模型,还增强了以下关键性能:

  • 在多语言的长尾知识覆盖方面,模型取得显著进步;

  • 在主观及开放性任务中,模型显著增强了对用户偏好的契合能力,能够提供更有用的回复,生成更高质量的文本;

  • 长文本提升到 256K,上下文理解能力进一步增强。

目前,Qwen3 新模型已在魔搭社区和 HuggingFace 上开源更新。(@APPSO)

2、字节开源 Seed-X:7B 小模型支持 28 种语言翻译

字节跳动近日宣布开源其自主研发的 Seed-X 系列多语言翻译模型(7B 版本)。它凭借创新的模型架构与强化学习优化,在仅 7 亿参数规模下实现对 28 种语言的高质量翻译,性能全面超越 GPT-4、Gemini-2.5 等千亿级大模型。

Mistral 架构重构:采用稀疏注意力机制与门控前馈网络,在减少 30%计算量的同时,通过相对位置编码显著提升长文本处理能力。测试显示,该架构在低资源语言对(如芬兰语↔瑞典语)的上下文理解能力提升 40%。

双阶段训练体系:

  • 预训练阶段:基于数千亿多语言语料进行 MLM+CLM 混合训练,构建跨语言语义基底

  • 强化学习微调:通过 PPO 算法结合人类反馈奖励模型(RM),使翻译质量评分超越专业评审标准

GitHub: github.com/ByteDance-S...

项目主页: huggingface.co/collections... (@AIGitHub)

3、WhatsApp 上线语音通话 API,开启 AI 语音新集成

7 月 15 日,WhatsApp 正式为其商业账户(Business Accounts)发布语音通话 API,引入基于 WebRTC 的语音通信能力,允许企业将其与现有的呼叫中心及 AI 语音智能体平台进行集成。

据悉,该 API 的发布旨在打通 WhatsApp 内的商业语音通信链路,主要支持两大核心应用场景:一是方便客户直接呼叫企业,用于客户支持、服务预约等;二是企业在获得用户许可后,可主动发起呼叫以进行信息确认或跟进。

  • 底层架构: 完全基于 WebRTC 标准构建,确保稳定与兼容性。

  • 信号协议: 同时支持现代化的 HTTP WebHooks 和传统的 SIP 协议,集成选择灵活。

  • 音频传输: 采用高效的 Opus 编解码器,并通过 ICE、DTLS 等标准协议保障通信安全。

此外,该 API 的使用还需满足以下关键条件:

  • 可用范围: 用户发起的呼叫(UIC)已全面上线;企业发起的呼叫(BIC)在美国、加拿大等部分国家暂不可用。

  • 账户门槛: 商家需拥有已验证的 WhatsApp Business Account,且消息额度需达到 1,000+。

  • 合规要求: 企业发起呼叫必须获得用户明确授权(Opt-in),并遵守平台反滥用规则。

目前,该 API 已正式上线,包括 Bland.ai 在内的早期合作伙伴已推出生产级集成方案,独立开发者也已成功展示了与 Google Gemini 等 AI 模型的集成原型。

相关链接:[medium.com/@ggarciaber...](https://link.juejin.cn?target=https%3A%2F%2Fmedium.com%2F%40ggarciabernardo%2Fwhatsapp-calling-api-new-voice-agent-integration-opportunities-b2557c33848b(%40Gustavo "https://medium.com/@ggarciabernardo/whatsapp-calling-api-new-voice-agent-integration-opportunities-b2557c33848b(@Gustavo") Garcia Blog)

02有亮点的产品

1、语音 AI 迎来并购潮:Meta 收购 PlayAI 后,谁是下一个目标?

近期,Meta 宣布收购语音 AI 初创公司 PlayAI,此举被视为行业整合浪潮的开端。各大科技巨头正激烈争夺语音交互技术,以抢占未来人机交互的制高点。语音 AI 领域投资热度也随之飙升,仅今年上半年股权融资总额已达 3.71 亿美元,与 2024 年全年水平相当。

投资者与科技巨头普遍认为,语音将取代传统的浏览器和移动应用,成为与 AI 交互的主导界面。随着技术不断成熟,语音 AI 已能实现低于 300 毫秒的超低延迟响应,达到了与人类自然对话相媲美的流畅度,这为语音 AI 的大规模应用扫清了障碍。

PlayAI 的投资方 Race Capital 合伙人 Chris McCann 指出:「语音是人类最自然的沟通方式。快速、富有表现力的语音技术,对于让 AI 在企业服务(如 IVR、客户支持、销售)中更具人性化和实用性至关重要。」

核心技术亮点与市场趋势

CB Insights 的分析报告指出了当前语音 AI 市场的几大核心趋势,以及优秀初创公司脱颖而出的关键:

  • 超低延迟成为核心指标: 技术的突破使得语音 AI 的响应速度足以媲美人类对话,这是实现自然交互体验、解锁其全部潜力的关键。

  • 「全栈自研」构筑技术壁垒: 相比依赖第三方或开源组件的公司,拥有完整自研技术栈(如自研 TTS 引擎、实时流媒体技术)的企业具备更强的技术控制力和竞争优势。Chris McCann 透露,这也是他们投资 PlayAI 的关键原因之一。

  • 并购焦点转向「人才与技术」: 在当前的 AI 军备竞赛中,企业的并购策略更侧重于获取顶尖人才、核心技术和关键基础设施,而非单纯考量其现有营收。

值得关注的潜在收购目标

基于衡量企业健康度的 Mosaic 评分,CB Insights 筛选出了一批极具吸引力的语音 AI 领域并购目标:

  • ElevenLabs: 作为语音合成领域的领跑者,其 Mosaic 评分高达 955。该公司高质量的专有语音生成技术,正被市场视为与基础大模型同等重要的核心基础设施。

  • Cresta: 专注于企业服务,能为客户带来立竿见影的投资回报(部分客户反馈呼叫中心成本降低 50%)。这使其对于希望借助语音 AI 迅速提升企业生产力的公司极具吸引力。

  • Cartesia: 以提供低于 100 毫秒的超低延迟技术为核心优势,这使其成为打造真正拟人化、无缝对话体验不可或缺的技术提供商。

随着科技巨头竞相布局 AI 设备与下一代交互入口,掌握先进语音技术已成为一项关乎成败的战略任务。预计市场将迎来一波并购浪潮,提前布局的公司将在下一阶段的 AI 普及中占据主导地位。(@CB Insights)

2、对话指令生成和弦、旋律、鼓点及混音效果,数字音频工作站 Mozart AI 筹集61.6 万欧

Mozart AI 是一款基于浏览器的 AI 音乐创作平台。

总部位于伦敦的 Mozart AI 是一家致力于「将每位艺术家的创作能力提升十倍」的下一代音乐人工智能初创公司,该公司已经完成了 61.6 万欧元的种子前融资,并推出了其首款产品------一款人工智能驱动的数字音频工作站(DAW)。 该公司获得了 EWOR(由独角兽创始人领导)、New Renaissance Ventures、Last.fm 创始人 Stefan Glaenzer、Atlantis Ventures 以及连续创业者 Felix Jahn 的支持。

「我们正在构建下一代音乐创作软件,其中音乐家的角色是提供创意见解和方向,而人工智能联合制作人则负责处理所有技术细节,」 Mozart AI 的首席执行官兼联合创始人 Sundar Arvind 表示。

Mozart AI 定位为一款面向卧室制作人和专业音乐人的浏览器端 AI 音乐创作平台,核心价值在于通过对话或文本指令,辅助用户快捷生成和迭代和弦、旋律、鼓点及混音效果,实现创意转化为高质量音乐作品。

其目标用户群覆盖从业余爱好者到职业艺术家,尤其是希望借助 AI 减少制作摩擦、提升创作效率的音乐制作者。产品聚焦于解决传统音乐制作耗时、灵感乏力及技术门槛高的难题,契合当前 AI 辅助创作需求增长的市场趋势。

功能与体验方面,Mozart AI 核心亮点包括:

  • 「AI 联合制作人」功能,支持通过自然语言生成音乐元素和循环;

  • TAB 模式快速输入与 AI 补全,提高创作连贯性;

  • 语义采样搜索通过描述性语言精准匹配音乐样本;

  • 一键混音指令整合多种音效处理,极大简化后期调整流程。

其差异化优势在于由音乐人亲自主导开发,强调对创作者的完全控制权与个性化表达支持,兼顾专业与易用性。

网站链接:getmozart.ai/login (@Z Potentials、@AI 音频时代)

3、Songscription:支持将音频曲目几分钟内转录为乐谱

Songscription 平台使用 AI 生成单乐器转录。用户可以上传音频文件或 YouTube 链接,选择时间签名和调号(或者让 AI 来决定),其 AI 模型会将其转录成乐谱。同时,Songscription 还提供了一个虚拟钢琴卷来可视化正在演奏的内容。

它采用免费增值模式,免费用户可以获取无限量的 30 秒转录和每月 10 次的三分钟转录。想要更多?专业版每月收费 29.99 美元,每月解锁 100 次长达 15 分钟的转录,以及更多的导出功能。

到目前为止,Songscription 支持各种乐器的转录,包括钢琴、吉他、鼓、长笛等。目前,它的钢琴转录最为可靠,但 Songscription 计划扩展输出格式,包括吉他谱和多乐器编排------这尤其适合乐队。

Songscription 试图在出版权方面做到尽善尽美,要求用户确认他们有权上传用于转录的音频。然而,这只是一个任何人都可以勾选以获取受版权保护歌曲免费乐谱的复选框系统。

体验链接:www.songscription.ai/ (@AI 音频时代)

03有态度的观点

1、施密特:AI 行业不会重蹈互联网泡沫覆辙

谷歌前 CEO 埃里克・施密特在巴黎 RAISE 峰会上表示,AI 行业不会重复互联网泡沫破裂的历史,其发展有硬件需求支撑。

他指出当前全球正在建设大规模数据中心,英伟达等芯片企业受益于 AI 算力需求,硬件资源将被软件充分消化。施密特投资的 Anthropic 等 AI 企业展现出行业潜力,他预计未来两三年可能出现产能过剩,但最终将形成全新产业结构。

据数据统计,2023 年 AI 市场估值为 1890 亿美元,预计 2033 年将增长至 4.8 万亿美元。(@IT 之家)

2、黄仁勋:中国 AI 市场无论有无英伟达都会进步

7 月 22 日,央视《面对面》专访了英伟达 CEO 黄仁勋,他表示,中国 AI 市场无论有没有英伟达都会进步。

访谈中,黄仁勋提到,「中国创新的步伐是不可能被阻挡的」。他表示,自己相信英伟达能做出重要贡献,但 AI 是一个极其复杂的系统,因此系统中的每一层级都十分重要:

一方面 AI 的发展需要系统每一层的创新,但如果某一层进展不够快,工程师们足够聪明,他们可以通过上下层的创新来弥补,从而推动整个系统前进。

黄仁勋尤其提到,不得不佩服深度求索(DeepSeek)这家公司的惊人创新能力,他们研发的 R1 模型是真正的创新。它重新设计了 AI 模型的很多运行方式,让它们能充分发挥 H20 架构的优势,这种做法非常有创意。

黄仁勋介绍,如果英伟达公司不在这里,会有其他中国创新者、芯片公司为这个市场服务,很多云服务提供商也会自研芯片,中国也有很多创新型企业。对此,黄仁勋提到了华为:

华为不仅极具创新力,更是一家规模和实力非凡的公司。

黄仁勋认为,中国的 AI 市场,无论有没有英伟达都会进步,如果英伟达不在这里,华为也一定能找到自己的解决方案。

同时,黄仁勋也在采访中强调,「中国不是众多市场中的一个,而是一个独一无二的市场。」黄仁勋还不忘提及阿里巴巴、美团、腾讯、百度、小米、比亚迪等企业,并表示「我的很多老朋友都是一起在 PC 行业成长的。」(@APPSO)

更多 Voice Agent 学习笔记:

GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南 ------ 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记

级联vs端到端、全双工、轮次检测、方言语种、商业模式...语音 AI 开发者都在关心什么?

视频丨Google 最新 AI 眼镜原型曝光:轻量 XR+情境感知 AI 打造下一代计算平台

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

相关推荐
风象南1 天前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia1 天前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮1 天前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬1 天前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia1 天前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区1 天前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两1 天前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪1 天前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat232551 天前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源