Kyutai 开源 TTS 模型；Rokid Glasses ：语音 AR 免提导航丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01有话题的技术

1、阿里巴巴达摩院提出 WorldVLA 模型，首次将世界模型与动作模型融合

阿里巴巴达摩院提出了 WorldVLA，首次将世界模型（World Model）和动作模型（Action Model/VLA Model）融合到了一个模型中。WorldVLA 是一个统一了文本、图片、动作理解和生成的全自回归模型。

VLA 模型可以根据图像理解生成动作；世界模型可以根据当前图像和动作生成下一帧图像；WorldVLA 将将两者融合，实现图像与动作的双向理解和生成，如下图所示。

WorldVLA 使用独立的编码器分别处理图像、文本和动作，并让这些模态共享同一个词汇表，从而在单一的大语言模型架构下实现跨模态的统一建模。这种设计不仅提升了动作生成的准确性，也增强了图像预测的质量。WorldVLA 使用 Action Model 数据和 World Model 数据来训练模型。

论文标题：WorldVLA: Towards Autoregressive Action World Model

论文地址：arxiv.org/pdf/2506.21...

代码地址：github.com/alibaba-dam...

2、联发科推出开源 AI 语音识别模型 MR BreezeASR 25，针对中国台湾地区语言特点和口音优化

7 月 3 日消息，联发科本月 1 日宣布其辖下的前瞻技术研究单位联发创新基地（MediaTek Research）发布基于 OpenAI Whisper 优化的 AI 语音识别模型 MR BreezeASR 25。

相较于原版 OpenAI Whisper，MR BreezeASR 25 更加理解中国台湾地区用语及口音，如不会将「发生什么事」听成「花生什么事」，同时在当地更为常见的中英混合的用语情境上也达到更高的精准度。

在数据层面，MR Breeze ASR 25 精度相较于 OpenAI Whisper 提升近 10%、中英语转换表现提升 56%。语音识别是 AI 应用的关键入口，该模型的出现将加速繁体中文 AI 实际应用的普及。

联发创新基地将 MR BreezeASR 25 模型以 Apache 2.0 许可开源公布，支持各行业在各类创意 AI 领域的应用。

报道链接：www.ithome.com/0/865/454.h...

GitHub：github.com/mtkresearch... （@IT 之家、@aigcrepo）

3、快手推出多模态大模型 Kwai Keye-VL

快手 Keye 团队发布了其前沿的多模态大语言模型 Kwai Keye-VL。该模型基于 Qwen3-8B 语言模型和开源的 SigLIP 视觉编码器构建，总参数量为 80 亿。Keye-VL 在视频理解、视觉感知和推理任务上表现出色，并在多个权威视频基准测试中（如 Video-MME， Video-MMMU 等）超越了同等规模的模型。

Keye-VL 的架构支持动态分辨率输入，并采用 3D RoPE 位置编码统一处理文本、图像和视频信息。其训练过程分为四个阶段的渐进式预训练和两个阶段的后训练。后训练阶段是其核心特色，通过引入混合模式的思维链（CoT）和多思维模式强化学习（RL）机制，显著提升了模型处理复杂多步任务的能力。模型代码已集成到最新的 Hugging Face Transformers 库中，并提供了便捷的工具包来处理各种视觉输入。

GitHub：github.com/Kwai-Keye/K... （@橘鸭 Juya）

4、Kyutai 开源文本转语音模型，支持接收语言模型生成文本词元的同时处理并生成音频

研究实验室 Kyutai 宣布开源其文本转语音（TTS）模型和名为 Unmute 的演示应用。其发布的 kyutai/tts-1.6b-en_fr 是一个 16 亿参数的模型，支持英语和法语，并以其自然度、可定制性和速度著称。在单块 L40S GPU 上，该模型能以 350 毫秒的延迟服务 32 个并发用户。

该 TTS 模型的一大创新是支持「文本流输入」，即可以一边接收语言模型生成的文本词元，一边开始处理并生成音频，实现了从接收首个文本词元到生成首个音频块仅 220 毫米的超低延迟。这一能力由 Kyutai 开发的「延迟流建模」（delayed streams modeling）技术实现。

此外，该模型支持高质量的声音克隆和长篇音频生成，并能输出单词级别的时间戳。为确保安全，声音克隆所需的声码器模型未直接发布，但提供了基于公开数据集的语音库。

kyutai.org/next/tts（@橘... Juya）

02有亮点的产品

1、「星流」设计 Agent 正式推出，支持视频、声音、3D 等内容生成

7 月 3 日，LiblibAI 发布「面向中文用户」的一站式创意设计 Agent「星流 Agent」。官方介绍，星流 Agent 不仅延续了 Lovart（LiblibAI 在海外推出的设计 Agent）的全栈式智能设计能力，还全面适配中文语义、东方美学、本地场景，真正把「用户说一句话，它搞定一套创意设计」落到实处。

目前，星流支持文生图，并且能够理解用户需求，自动匹配风格、选模型、出整套物料。另外，星流还通过接入的十多个顶尖大模型（F.1、Kling、Qwen、hailuo02 等），支持视频、声音、3D 等内容生成。目前，星流已上架 PC 端和移动端。

相关链接：www.xingliu.art/ （@APPSO）

2、Rokid Glasses 智能眼镜：通过语音交互和 AR 技术实现免提导航

近日，Rokid、高德地图共同推出基于智能眼镜的导航智能体（NaviAgent）应用，可以在导航精准的同时实现无缝切换导航模式、看物识别等功能。

用户佩戴 Rokid Glasses 时，可以通过语音交互切换导航前、导航中的模式。并且这一眼镜在保留速度、方向等导航基础信息的同时，采用稳定贴地引导线和场景化转向立牌，将导航画面显示到了视线远处，非紧贴眼前，用户可以在观察前方路况的同时看到导航信息。

此前，在智能汽车上价值上万的高阶 HUD（抬头显示）功能，也被呈现到了眼镜的显示画面内。导航过程中，Rokid Glasses 会在展示路径的同时，提醒用户注意后方来车、读秒红绿灯。

语音交互还有一大便利性，就是不会打断用户的骑行、驾车过程，当用户提出「先去下加油站」，Rokid Glasses 会快速为用户筛选周边加油站信息，然后同时在显示界面给出选项，用户只需说出「去第一个」，就能快速切换导航。（@智东西）

03有态度的观点

1、AI.Talk 创始人：AI IP 的核心永远是信任

日前，AI 频道 AI.Talk 创始人「赵汗青」接受「数字生命卡兹克」采访，并分享了自己打造 AI.Talk 这一 AI IP 形象的心路历程。

赵汗青在采访中透露了自己对 AI 虚拟形象的解构：文本层（用于形成形象的思想和语言）、音频层（形象的声线和歌声）、影像层（形象的外观），以及互动层。互动层在赵汗青看来「最重要」，并且也是最能体现 AI 时代 IP 特质的一层。对于 AI.Talk 来讲，视频只是最基础的单向交互，团队还在探索更多互动方式，而赵汗青也表示：

我自己的判断是，AI 生成式内容的格式应该会迎来新的变化，不仅仅是目前短视频的方式，至少从历史上看，媒介技术的变革往往会伴随媒介格式的迁移。

采访中，赵汗青与「数字生命卡兹克」共同表示：「万物皆可 AI 生成」的时代背景下，AI IP 的核心永远是信任。赵汗青表示，在真人 IP 充斥着互联网的如今，一个「非人」形象反而成了关注的理由。采访指出，AI IP 形象规避了传统偶像人设崩塌的风险，也为用户提供了一种全新的、没有压力的情感寄托。

另外，赵汗青与「数字生命卡兹克」还共同表示，在满是 AI 生成的未来中，人们将会从筛选信息变成筛选信息源，「信息本身已经没有意义，因为你难辨真假，你只能相信你愿意相信的那几个人，那几个 IP。」(@APPSO)

2、语音交互的下一站，是实现「共情」

过去半年，「AI 语音」赛道正密集地获得融资。尤其引人注目的是，这些融资多为大额，并且投向早期团队。

比如，前不久 AI 语音应用 Wispr Flow 靠「默念输入」，完成了 3000 万美元的 A 轮融资，累计融资额已达 5600 万美元；语音模型公司 Cartesia 在 3 月份完成了 6400 万美元的 A 轮融资，累计融资 9100 万美元；AI 语音合成公司 ElevenLabs 更是在 1 月份宣布完成 1.8 亿美元的 C 轮融资，估值超过 30 亿美元。

与此同时，无论是 Meta、OpenAI、Google 等科技巨头，还是 MiniMax 等创业公司，都在密集发布自己的语音模型或语音产品。Siri 也被曝出或将被 ChatGPT 或 Claude 等模型接管，来跟上语音交互的进展。

以下内容根据声智副总裁黄赟贺的讲述和声智的论文整理而成：

当我说「下一代对话交互的入口并非『Voice』，而是『Sound』」时，我指的是 AI 系统将不再仅仅依赖于识别你说的「词」，而是能够全面感知和理解你所处环境的「声学场景」中的所有关键元素。

只有当 AI 能够全面感知并解析「Sound」中包含的这些多维度信息时，它才能真正理解用户的深层需求，提供更精准、更个性化、更富有情感的交互。这才是真正的「语音交互」，它不仅仅是「听懂」字面意思，更是「听懂」你的「言外之意」和「心声」。

语音带来的一种可能性是，它正在开启一个全新的阶段------人机交互的「共情模式」。

狭义的「Voice」拓展到广义的「Sound」，当 AI 能接收到的不仅仅是用户的指令，而是整个物理世界的实时反馈时，我们可以去构建一个「声学世界模型」。

这个「声学世界模型」可以理解声音在物理世界中产生、传播和交互的根本规律，它不仅要「听清」和「听懂」，更要具备「声学常识」和「声学推理」的能力：它能从一声闷响中分辨出是书本落地还是箱子倒塌；能通过回声判断出房间的大小与空旷程度；更能理解「脚步声由远及近」背后所蕴含的物理运动逻辑。

未来，当这样一个声学世界模型与视觉、语言大模型深度融合时，具身智能机器人将不再「失聪」和冰冷。（@极客公园）

更多 Voice Agent 学习笔记：

语音能否彻底取代键盘？Wispr Flow 融资 3000 万美金背后的思考丨Voice Agent 学习笔记

11Labs 增长负责人分享：企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记

实时多模态如何重塑未来交互？我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记

级联vs端到端、全双工、轮次检测、方言语种、商业模式...语音 AI 开发者都在关心什么？丨Voice Agent 学习笔记

a16z合伙人：语音交互将成为AI应用公司最强大的突破口之一，巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密：技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代，每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司，举办了一场全球黑客松，冠军作品你可能已经看过

多模态 AI 怎么玩？这里有 18 个脑洞

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻