Kyutai 开源 TTS 模型;Rokid Glasses :语音 AR 免提导航丨日报

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01有话题的技术

1、阿里巴巴达摩院提出 WorldVLA 模型,首次将世界模型与动作模型融合

阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。WorldVLA 是一个统一了文本、图片、动作理解和生成的全自回归模型。

VLA 模型可以根据图像理解生成动作;世界模型可以根据当前图像和动作生成下一帧图像;WorldVLA 将将两者融合,实现图像与动作的双向理解和生成,如下图所示。

WorldVLA 使用独立的编码器分别处理图像、文本和动作,并让这些模态共享同一个词汇表,从而在单一的大语言模型架构下实现跨模态的统一建模。这种设计不仅提升了动作生成的准确性,也增强了图像预测的质量。WorldVLA 使用 Action Model 数据和 World Model 数据来训练模型。

论文标题:WorldVLA: Towards Autoregressive Action World Model

论文地址:arxiv.org/pdf/2506.21...

代码地址:github.com/alibaba-dam...

2、联发科推出开源 AI 语音识别模型 MR BreezeASR 25,针对中国台湾地区语言特点和口音优化

7 月 3 日消息,联发科本月 1 日宣布其辖下的前瞻技术研究单位联发创新基地 (MediaTek Research) 发布基于 OpenAI Whisper 优化的 AI 语音识别模型 MR BreezeASR 25。

相较于原版 OpenAI Whisper,MR BreezeASR 25 更加理解中国台湾地区用语及口音,如不会将「发生什么事」听成「花生什么事」,同时在当地更为常见的中英混合的用语情境上也达到更高的精准度。

在数据层面,MR Breeze ASR 25 精度相较于 OpenAI Whisper 提升近 10%、中英语转换表现提升 56%。语音识别是 AI 应用的关键入口,该模型的出现将加速繁体中文 AI 实际应用的普及。

联发创新基地将 MR BreezeASR 25 模型以 Apache 2.0 许可开源公布,支持各行业在各类创意 AI 领域的应用。

报道链接:www.ithome.com/0/865/454.h...

GitHub:github.com/mtkresearch... (@IT 之家、@aigcrepo)

3、快手推出多模态大模型 Kwai Keye-VL

快手 Keye 团队发布了其前沿的多模态大语言模型 Kwai Keye-VL。该模型基于 Qwen3-8B 语言模型和开源的 SigLIP 视觉编码器构建,总参数量为 80 亿。Keye-VL 在视频理解、视觉感知和推理任务上表现出色,并在多个权威视频基准测试中(如 Video-MME, Video-MMMU 等)超越了同等规模的模型。

Keye-VL 的架构支持动态分辨率输入,并采用 3D RoPE 位置编码统一处理文本、图像和视频信息。其训练过程分为四个阶段的渐进式预训练和两个阶段的后训练。后训练阶段是其核心特色,通过引入混合模式的思维链(CoT)和多思维模式强化学习(RL)机制,显著提升了模型处理复杂多步任务的能力。模型代码已集成到最新的 Hugging Face Transformers 库中,并提供了便捷的工具包来处理各种视觉输入。

GitHub:github.com/Kwai-Keye/K... (@橘鸭 Juya)

4、Kyutai 开源文本转语音模型,支持接收语言模型生成文本词元的同时处理并生成音频

研究实验室 Kyutai 宣布开源其文本转语音(TTS)模型和名为 Unmute 的演示应用。其发布的 kyutai/tts-1.6b-en_fr 是一个 16 亿参数的模型,支持英语和法语,并以其自然度、可定制性和速度著称。在单块 L40S GPU 上,该模型能以 350 毫秒的延迟服务 32 个并发用户。

该 TTS 模型的一大创新是支持「文本流输入」,即可以一边接收语言模型生成的文本词元,一边开始处理并生成音频,实现了从接收首个文本词元到生成首个音频块仅 220 毫米的超低延迟。这一能力由 Kyutai 开发的「延迟流建模」(delayed streams modeling)技术实现。

此外,该模型支持高质量的声音克隆和长篇音频生成,并能输出单词级别的时间戳。为确保安全,声音克隆所需的声码器模型未直接发布,但提供了基于公开数据集的语音库。

kyutai.org/next/tts(@橘... Juya)

02有亮点的产品

1、「星流」设计 Agent 正式推出,支持视频、声音、3D 等内容生成

7 月 3 日,LiblibAI 发布「面向中文用户」的一站式创意设计 Agent「星流 Agent」。官方介绍,星流 Agent 不仅延续了 Lovart(LiblibAI 在海外推出的设计 Agent)的全栈式智能设计能力,还全面适配中文语义、东方美学、本地场景,真正把「用户说一句话,它搞定一套创意设计」落到实处。

目前,星流支持文生图,并且能够理解用户需求,自动匹配风格、选模型、出整套物料。另外,星流还通过接入的十多个顶尖大模型(F.1、Kling、Qwen、hailuo02 等),支持视频、声音、3D 等内容生成。目前,星流已上架 PC 端和移动端。

相关链接:www.xingliu.art/ (@APPSO)

2、Rokid Glasses 智能眼镜:通过语音交互和 AR 技术实现免提导航

近日,Rokid、高德地图共同推出基于智能眼镜的导航智能体(NaviAgent)应用,可以在导航精准的同时实现无缝切换导航模式、看物识别等功能。

用户佩戴 Rokid Glasses 时,可以通过语音交互切换导航前、导航中的模式。并且这一眼镜在保留速度、方向等导航基础信息的同时,采用稳定贴地引导线和场景化转向立牌,将导航画面显示到了视线远处,非紧贴眼前,用户可以在观察前方路况的同时看到导航信息。

此前,在智能汽车上价值上万的高阶 HUD(抬头显示)功能,也被呈现到了眼镜的显示画面内。导航过程中,Rokid Glasses 会在展示路径的同时,提醒用户注意后方来车、读秒红绿灯。

语音交互还有一大便利性,就是不会打断用户的骑行、驾车过程,当用户提出「先去下加油站」,Rokid Glasses 会快速为用户筛选周边加油站信息,然后同时在显示界面给出选项,用户只需说出「去第一个」,就能快速切换导航。(@智东西)

03有态度的观点

1、AI.Talk 创始人:AI IP 的核心永远是信任

日前,AI 频道 AI.Talk 创始人「赵汗青」接受「数字生命卡兹克」采访,并分享了自己打造 AI.Talk 这一 AI IP 形象的心路历程。

赵汗青在采访中透露了自己对 AI 虚拟形象的解构:文本层(用于形成形象的思想和语言)、音频层(形象的声线和歌声)、影像层(形象的外观),以及互动层。 互动层在赵汗青看来「最重要」,并且也是最能体现 AI 时代 IP 特质的一层。对于 AI.Talk 来讲,视频只是最基础的单向交互,团队还在探索更多互动方式,而赵汗青也表示:

我自己的判断是,AI 生成式内容的格式应该会迎来新的变化,不仅仅是目前短视频的方式,至少从历史上看,媒介技术的变革往往会伴随媒介格式的迁移。

采访中,赵汗青与「数字生命卡兹克」共同表示:「万物皆可 AI 生成」的时代背景下,AI IP 的核心永远是信任。赵汗青表示,在真人 IP 充斥着互联网的如今,一个「非人」形象反而成了关注的理由。采访指出,AI IP 形象规避了传统偶像人设崩塌的风险,也为用户提供了一种全新的、没有压力的情感寄托。

另外,赵汗青与「数字生命卡兹克」还共同表示,在满是 AI 生成的未来中,人们将会从筛选信息变成筛选信息源,「信息本身已经没有意义,因为你难辨真假,你只能相信你愿意相信的那几个人,那几个 IP。」(@APPSO)

2、语音交互的下一站,是实现「共情」

过去半年,「AI 语音」赛道正密集地获得融资。尤其引人注目的是,这些融资多为大额,并且投向早期团队。

比如,前不久 AI 语音应用 Wispr Flow 靠「默念输入」,完成了 3000 万美元的 A 轮融资,累计融资额已达 5600 万美元;语音模型公司 Cartesia 在 3 月份完成了 6400 万美元的 A 轮融资,累计融资 9100 万美元;AI 语音合成公司 ElevenLabs 更是在 1 月份宣布完成 1.8 亿美元的 C 轮融资,估值超过 30 亿美元。

与此同时,无论是 Meta、OpenAI、Google 等科技巨头,还是 MiniMax 等创业公司,都在密集发布自己的语音模型或语音产品。Siri 也被曝出或将被 ChatGPT 或 Claude 等模型接管,来跟上语音交互的进展。

以下内容根据声智副总裁黄赟贺的讲述和声智的论文整理而成:

当我说「下一代对话交互的入口并非『Voice』,而是『Sound』」时,我指的是 AI 系统将不再仅仅依赖于识别你说的「词」,而是能够全面感知和理解你所处环境的「声学场景」中的所有关键元素。

只有当 AI 能够全面感知并解析「Sound」中包含的这些多维度信息时,它才能真正理解用户的深层需求,提供更精准、更个性化、更富有情感的交互。这才是真正的「语音交互」,它不仅仅是「听懂」字面意思,更是「听懂」你的「言外之意」和「心声」。

语音带来的一种可能性是,它正在开启一个全新的阶段------人机交互的「共情模式」。

狭义的「Voice」拓展到广义的「Sound」,当 AI 能接收到的不仅仅是用户的指令,而是整个物理世界的实时反馈时,我们可以去构建一个「声学世界模型」。

这个「声学世界模型」可以理解声音在物理世界中产生、传播和交互的根本规律,它不仅要「听清」和「听懂」,更要具备「声学常识」和「声学推理」的能力:它能从一声闷响中分辨出是书本落地还是箱子倒塌;能通过回声判断出房间的大小与空旷程度;更能理解「脚步声由远及近」背后所蕴含的物理运动逻辑。

未来,当这样一个声学世界模型与视觉、语言大模型深度融合时,具身智能机器人将不再「失聪」和冰冷。(@极客公园)

更多 Voice Agent 学习笔记:

语音能否彻底取代键盘?Wispr Flow 融资 3000 万美金背后的思考丨Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记

级联vs端到端、全双工、轮次检测、方言语种、商业模式...语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

相关推荐
计算机毕业设计指导9 分钟前
基于ResNet50的智能垃圾分类系统
人工智能·分类·数据挖掘
飞哥数智坊13 分钟前
终端里用 Claude Code 太难受?我把它接进 TRAE,真香!
人工智能·claude·trae
小王爱学人工智能1 小时前
OpenCV的阈值处理
人工智能·opencv·计算机视觉
新智元1 小时前
刚刚,光刻机巨头 ASML 杀入 AI!豪掷 15 亿押注「欧版 OpenAI」,成最大股东
人工智能·openai
机器之心1 小时前
全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
人工智能·openai
新智元1 小时前
2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没
人工智能·openai
湫兮之风1 小时前
OpenCV: Mat存储方式全解析-单通道、多通道内存布局详解
人工智能·opencv·计算机视觉
机器之心2 小时前
Claude不让我们用!国产平替能顶上吗?
人工智能·openai
程序员柳2 小时前
基于YOLOv8的车辆轨迹识别与目标检测研究分析软件源代码+详细文档
人工智能·yolo·目标检测
算家计算2 小时前
一站式高质量数字人动画框架——EchoMimic-V3本地部署教程: 13 亿参数实现统一多模态、多任务人体动画生成
人工智能·开源