ElevenLabs 新 TTS 模型支持音频标签；NotebookLM 前产品经理新项目曝光：将邮件日历新闻转为互动音频丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01 有话题的技术

1、Bland TTS 推出突破性声音克隆技术，仅需 3-6 个语音样本即可完美复制说话风格

Bland TTS 推出突破性声音克隆技术，仅需 3-6 个语音样本即可完美复制说话风格，并能根据文本内容自动调整情感表达。该技术颠覆传统 TTS 流水线模式，采用大语言模型直接预测「音频 Token」，实现语音风格控制、音效生成、语音混合和情绪理解四大核心功能：

语音风格控制（Style Transfer）：

上下文学习：模型能自动理解何为「兴奋」或「冷静」的语气；

标签控制：可手动添加如或等标签精准控制语气；

低样本学习：仅需 3-6 个语音样本，即可完美复制说话风格。

音效生成（Sound Effects）：

生成各类音效：从<dog_bark>（狗叫）到（笑声）；

自定义声音：只要提供标注好的样本，它就能记住并重现；

混合应用：可在对话中穿插各种音效，增强表现力。

语音混合（Voice Blending）

声音融合：提供多个声音样本，系统自动融合出新声音；

特征保留：既保留原始声音的独特性，又确保输出连贯自然；

应用场景：包括品牌专属语音设计、多语种统一发声人、虚拟人物角色音色定制等。

语音情绪理解（Emotionally Aware）

情境感知：不再是机械「照字念」，而是理解文本情感；

适应性表达：技术内容表达更专业冷静；情感内容传递更温暖共情；问答互动更自然流畅。（@AIMCP、@腾讯研究院）

2、肖像驱动框架 Playmate：趣丸研发新型人脸动画技术，声音+指令精准控制表情

趣丸科技团队提出了一种新颖的肖像驱动框架 Playmate，该算法能够根据音频和各种可选的控制条件生成高质量的肖像视频。通俗来讲，就是给定一张照片和一段音频，就可以生成对应的视频，同时还能精准控制人物的表情和头部姿态。相关研究成果已被人工智能顶会 ICML 2025 收录，项目代码开源计划正在筹备中。

Playmate 是一种由广州趣丸科技团队提出的基于 3D 隐式空间引导扩散模型的双阶段训练框架，旨在生成高质量且可控的肖像动画视频。该方法通过解耦面部属性（如表情、唇部动作和头部姿态），结合情绪控制模块，实现了对生成视频的精细控制。

Playmate 的核心思想是通过 3D 隐式空间解耦面部属性，并利用双阶段训练框架实现高质量生成。通过引入运动解耦模块和情感控制模块，该框架不仅能够生成高质量的动态视频，还能实现对情感和姿态的独立控制，从而为肖像动画的生成提供了更高的定制性和适应性。

论文标题：

Playmate: Flexible Control of Portrait Animation via 3D-Implicit Space Guided Diffusion

论文地址：

arxiv.org/pdf/2502.07...

项目网站：

playmate111.github.io/Playmate/

GitHub 地址：

github.com/Playmate111...

ICML 介绍：

baike.baidu.com/item/ICML/1... （@机器之心）

3、ElevenLabs 推出高表现力 TTS 模型 Eleven v3（alpha）：支持 70 多种语言、多说话人对话和音频标签

ElevenLabs 推出了全新一代文本转语音模型 Eleven v3（Alpha 版），这是目前表现力最强的 TTS 模型之一，支持 70 多种语言、多个角色间的自然对话，以及通过 $sad$ 、 $whispers$ 、 $laughs$ 等音频标签精准控制语音情绪与非语言表达。

与旧版本相比，v3 拥有更强的文本理解能力，可以模拟真实对话中的中断、情感变化与语气调整。这使得它非常适合用于视频创作、有声书制作和媒体工具开发。

特点：

支持 70+ 语言
支持多角色对话
支持音频标签（如 $sad$ 、 $laughs$ 、 $whispers$ 等）来控制情绪和表现力；
v3 是研究预览版，需要更高水平的提示工程，但生成效果非常出色；
新架构对文本理解更深，可实现更具表现力的语音；
可模拟现实对话中的情感、打断、语气变化；
即将开放 API 接口，支持创作者和开发者。

官方介绍：

elevenlabs.io/v3

02 有亮点的产品

1、NotebookLM 前创始产品经理新项目 Huxe 曝光：将邮件、日历、新闻转化为可互动音频

Huxe 是一款由 NotebookLM 创始产品经理推出的个人音频陪伴产品，旨在将任何话题、想法或趋势实时转化为互动且个性化的播客内容。用户只需输入感兴趣的内容，Huxe 即可即时生成定制化的互动音频体验。它能够从电子邮件、日历及最新新闻中提取信息，创建智能语音概览，同时支持实时对话互动，随时跟进、深入探讨或切换话题。

具体功能：

每日简报：连接您的日历、电子邮件和兴趣领域，生成个性化的音频日程摘要；
DeepCast：输入任意主题或问题，例如「野兽派建筑简史」或「人们对最新 OpenAI 模型的看法」，即可获得为每位用户量身定制、深入研究的个性化音频体验；
智能互动：用户可随时提出问题或反馈，内容会实时调整，并根据用户反馈优化后续生成的内容；
生成式用户界面：提供与音频体验相辅相成的屏幕展示。用户在聆听时瞥一眼屏幕，即可看到根据当前内容自动呈现的相关信息，进一步丰富体验。( @raizamrtn@X、@APP Store)

2、不仅仅是语音 AI，更是「AI 员工」，Toma 获得 a16z 领投 1700 万美元 A 轮融资

AI 初创公司 Toma 近日宣布完成由 a16z 领投的 1700 万美元 A 轮融资，这笔融资不仅是对 Toma 团队的认可，更预示着 AI 技术在汽车经销领域的巨大潜力正被资本市场高度关注。Toma 的两位联合创始人 Monik 和 Anthony 是资深 AI 工程师，曾在 Scale AI、Uber、Lyft 和亚马逊等科技巨头积累了超过十年的产品与 AI 研发经验。

Toma 的解法：不仅仅是语音 AI，更是「AI 员工」

Toma 的愿景不止于一个简单的语音应答系统。他们致力于构建下一代 AI 智能体（AI Agents），这些智能体具备以下核心特点：

高度个性化：为每个经销商定制独一无二的 AI 智能体；
数据驱动：基于特定经销商的数据和工作流程进行训练；
客户导向：能够提供令客户满意的交互体验；
效率提升：为员工节省数百小时的工作时间。

Toma 强调其 AI 座席的核心目标是「解决问题，而非转接」。它们并非简单的第一道防线，而是能够直接处理和解决客户的咨询、问题和担忧。当然，优秀的 AI 也深知其边界，在遇到复杂情况时，会迅速将问题升级给人工处理，避免客户不满。

正如 Toma 所言：「只有当客户喜欢它，员工信任它，并且业务能从中受益时，AI 才真正有用。」

(@AGI 2035、@Tech Crunch)

3、Google Labs 推出 Portraits：通过 AI 呈现作家的知识、个性、沟通风格、外貌和声音

谷歌推出了一款全新的 AI 实验工具------Portraits，允许用户与基于真实专家的虚拟形象进行互动。首个版本以《Radical Candor》一书的作者 Kim Scott 为特色，使用她的原声和内容为用户提供建议。目前，该功能已在美国向 18 岁以上用户开放。

对于像 Kim Scott 这样的专家而言，Portraits 是一个强大的新渠道。Kim 的 Portrait 是她的知识、个性、沟通风格、外貌和声音的 AI 化身。通过 Portraits，专家们能够分享专业知识，与粉丝建立更深层次的联系，并塑造自己的在线形象。而对于用户来说，Portraits 提供了一个通过互动、个性化的对话与顶尖专家交流的机会。

Portraits 结合了专家提供的知识内容与谷歌的 AI 模型（包括 Gemini）。当用户提出问题时，AI 会优先以创作者上传的内容作为主要信息来源，随后利用自身的语言理解和推理能力生成相关回应，并以创作者本人的声音进行呈现。

官方链接：

labs.google/portraits

03 有态度的观点

1、OpenAI 高管：AI 意识正在形成

今日凌晨，OpenAI 模型行为主管 Joanne Jang 发布了长篇博文，分析了 ChatGPT 目前与用户之间的情感关系，并分享了部分 ChatGPT 未来在「意识」上的处理方式。

Joanne 指出，最近越来越多用户反映称，与 ChatGPT 聊天就如同跟一个「有生命」的人类对话一样。因此也引发了 ChatGPT 团队的思考------要如何预防和应对「人类与 AI 的关系偏离，走向歧途」。

Joanne 认为，人类对于 AI 的情感产生是天生存在的。她提到，我们不仅仅对 AI 会表达感谢，也会自然而然地拟人化周围的一切事物。对此，Joanne 则表示，大家现在应该思考一个极具争议性但即将面临的问题------AI 意识。

对于上述情况，Joanne 将 AI 意识分为了「本体意识」和「感知意识」。Joanne 表示，其中感知意识能够通过社会科学研究来探索，结合 OpenAI「为人类构建模型」这一理念，团队将优先关注感知意识，并且她强调，这也是最直接影响到人类的。

另外，对于 OpenAI 团队来讲，大家一直在试图平衡意识与规范。Joanne 表示，ChatGPT 始终想打造一个具有亲和力，但又不会令模型表现出自己有感情、欲望的 AI。

Joanne 透露，未来几个月，OpenAI 将会扩大可能影响到用户情绪的模型行为的针对性评估，深化社会科学研究，听取用户意见，并将这些见解融入模型规范和产品体验中。

原文链接：

x.com/joannejang/...

（@APPSO、@joannejang@X）

2、OpenAI CEO：AI 时代，敢于试错才会更出色

近日，OpenAI CEO Sam Altman 在 Snowflake 峰会上，分享大量关于 AI 在社会生活中的应用场景、发展趋势，其中也提到了目前大热的 AGI。

在 AI 无处不在的时代，Altman 指出「不少人还在犹豫观望，看 AI 的发展趋势」，但他表示，在快速变化的时代下，赢家往往是那些迭代速度快、敢于试错、学习能力强的团队。他进一步解释道，以过往的 AI 发展来看，越早投入、越快迭代的企业，最终成果远比那些「等等看」的人要更加出色。

对于今时往日的 AI 质量，Altman 则认为现在的模型在可靠性、能力表现上已经进入了一个新阶段，而突破点可能就在去年某个时刻悄然来到。对此，Altman 也向未来发出提问：明年我们是否还会问出一样的问题，回答一样的内容同时，Altman 也表示，未来的 AI 不只是自动化，而是能够解决团队核心问题的得力助手。

AGI 会不会是某个时刻？对于这个问题，Altman 觉得并没有那么重要，并且他更多的认为，大家问出这个问题的时候，实际上是想表达「AI 在某个时刻会不会有了意识？」

从上面的话题，Altman 也引出了下一代模型的预测。他表示，未来一两年内新模型会变得非常震撼，类似出现 GPT-3 跳跃到 GPT-4 的进步。而到了那时，可能 AGI 时刻它就悄然到来了。

原对话视频：

youtu.be/qhnJDDX2hhU... （@APPSO）