ElevenLabs 新 TTS 模型支持音频标签;NotebookLM 前产品经理新项目曝光:将邮件日历新闻转为互动音频丨日报

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01 有话题的技术

1、Bland TTS 推出突破性声音克隆技术,仅需 3-6 个语音样本即可完美复制说话风格

Bland TTS 推出突破性声音克隆技术,仅需 3-6 个语音样本即可完美复制说话风格,并能根据文本内容自动调整情感表达。该技术颠覆传统 TTS 流水线模式,采用大语言模型直接预测「音频 Token」,实现语音风格控制、音效生成、语音混合和情绪理解四大核心功能:

  • 语音风格控制(Style Transfer):

上下文学习: 模型能自动理解何为「兴奋」或「冷静」的语气;

标签控制: 可手动添加如或等标签精准控制语气;

低样本学习: 仅需 3-6 个语音样本,即可完美复制说话风格。

  • 音效生成(Sound Effects):

生成各类音效: 从<dog_bark>(狗叫)到(笑声);

自定义声音: 只要提供标注好的样本,它就能记住并重现;

混合应用: 可在对话中穿插各种音效,增强表现力。

  • 语音混合(Voice Blending)

声音融合: 提供多个声音样本,系统自动融合出新声音;

特征保留: 既保留原始声音的独特性,又确保输出连贯自然;

应用场景:包括品牌专属语音设计、多语种统一发声人、虚拟人物角色音色定制等。

  • 语音情绪理解(Emotionally Aware)

情境感知: 不再是机械「照字念」,而是理解文本情感;

适应性表达:技术内容表达更专业冷静;情感内容传递更温暖共情;问答互动更自然流畅。(@AIMCP、@腾讯研究院)

2、肖像驱动框架 Playmate:趣丸研发新型人脸动画技术,声音+指令精准控制表情

趣丸科技团队提出了一种新颖的肖像驱动框架 Playmate,该算法能够根据音频和各种可选的控制条件生成高质量的肖像视频。通俗来讲,就是给定一张照片和一段音频,就可以生成对应的视频,同时还能精准控制人物的表情和头部姿态。相关研究成果已被人工智能顶会 ICML 2025 收录,项目代码开源计划正在筹备中。

Playmate 是一种由广州趣丸科技团队提出的基于 3D 隐式空间引导扩散模型的双阶段训练框架,旨在生成高质量且可控的肖像动画视频。该方法通过解耦面部属性(如表情、唇部动作和头部姿态),结合情绪控制模块,实现了对生成视频的精细控制。

Playmate 的核心思想是通过 3D 隐式空间解耦面部属性,并利用双阶段训练框架实现高质量生成。通过引入运动解耦模块和情感控制模块,该框架不仅能够生成高质量的动态视频,还能实现对情感和姿态的独立控制,从而为肖像动画的生成提供了更高的定制性和适应性。

论文标题:

Playmate: Flexible Control of Portrait Animation via 3D-Implicit Space Guided Diffusion

论文地址:

arxiv.org/pdf/2502.07...

项目网站:

playmate111.github.io/Playmate/

GitHub 地址:

github.com/Playmate111...

ICML 介绍:

baike.baidu.com/item/ICML/1... (@机器之心)

3、ElevenLabs 推出高表现力 TTS 模型 Eleven v3(alpha):支持 70 多种语言、多说话人对话和音频标签

ElevenLabs 推出了全新一代文本转语音模型 Eleven v3(Alpha 版),这是目前表现力最强的 TTS 模型之一,支持 70 多种语言、多个角色间的自然对话,以及通过 [sad]、[whispers]、[laughs] 等音频标签精准控制语音情绪与非语言表达。

与旧版本相比,v3 拥有更强的文本理解能力,可以模拟真实对话中的中断、情感变化与语气调整。这使得它非常适合用于视频创作、有声书制作和媒体工具开发。

特点:

  • 支持 70+ 语言

  • 支持 多角色对话

  • 支持音频标签(如 [sad]、[laughs]、[whispers] 等)来控制情绪和表现力;

  • v3 是研究预览版,需要更高水平的提示工程,但生成效果非常出色;

  • 新架构对文本理解更深,可实现更具表现力的语音;

  • 可模拟现实对话中的情感、打断、语气变化;

  • 即将开放 API 接口,支持创作者和开发者。

官方介绍:

elevenlabs.io/v3

相关链接:

t.co/RHi7prurqm

(@elevenlabsio@X、@小互 AI)

02 有亮点的产品

1、NotebookLM 前创始产品经理新项目 Huxe 曝光:将邮件、日历、新闻转化为可互动音频

Huxe 是一款由 NotebookLM 创始产品经理推出的个人音频陪伴产品,旨在将任何话题、想法或趋势实时转化为互动且个性化的播客内容。用户只需输入感兴趣的内容,Huxe 即可即时生成定制化的互动音频体验。它能够从电子邮件、日历及最新新闻中提取信息,创建智能语音概览,同时支持实时对话互动,随时跟进、深入探讨或切换话题。

具体功能:

  • 每日简报:连接您的日历、电子邮件和兴趣领域,生成个性化的音频日程摘要;

  • DeepCast:输入任意主题或问题,例如「野兽派建筑简史」或「人们对最新 OpenAI 模型的看法」,即可获得为每位用户量身定制、深入研究的个性化音频体验;

  • 智能互动:用户可随时提出问题或反馈,内容会实时调整,并根据用户反馈优化后续生成的内容;

  • 生成式用户界面:提供与音频体验相辅相成的屏幕展示。用户在聆听时瞥一眼屏幕,即可看到根据当前内容自动呈现的相关信息,进一步丰富体验。( @raizamrtn@X、@APP Store)

2、不仅仅是语音 AI,更是「AI 员工」,Toma 获得 a16z 领投 1700 万美元 A 轮融资

AI 初创公司 Toma 近日宣布完成由 a16z 领投的 1700 万美元 A 轮融资,这笔融资不仅是对 Toma 团队的认可,更预示着 AI 技术在汽车经销领域的巨大潜力正被资本市场高度关注。Toma 的两位联合创始人 Monik 和 Anthony 是资深 AI 工程师,曾在 Scale AI、Uber、Lyft 和亚马逊等科技巨头积累了超过十年的产品与 AI 研发经验。

Toma 的解法:不仅仅是语音 AI,更是「AI 员工」

Toma 的愿景不止于一个简单的语音应答系统。他们致力于构建下一代 AI 智能体(AI Agents),这些智能体具备以下核心特点:

  • 高度个性化:为每个经销商定制独一无二的 AI 智能体;

  • 数据驱动:基于特定经销商的数据和工作流程进行训练;

  • 客户导向:能够提供令客户满意的交互体验;

  • 效率提升:为员工节省数百小时的工作时间。

Toma 强调其 AI 座席的核心目标是「解决问题,而非转接」。它们并非简单的第一道防线,而是能够直接处理和解决客户的咨询、问题和担忧。当然,优秀的 AI 也深知其边界,在遇到复杂情况时,会迅速将问题升级给人工处理,避免客户不满。

正如 Toma 所言:「只有当客户喜欢它,员工信任它,并且业务能从中受益时,AI 才真正有用。」

(@AGI 2035、@Tech Crunch)

3、Google Labs 推出 Portraits:通过 AI 呈现作家的知识、个性、沟通风格、外貌和声音

谷歌推出了一款全新的 AI 实验工具------Portraits,允许用户与基于真实专家的虚拟形象进行互动。首个版本以《Radical Candor》一书的作者 Kim Scott 为特色,使用她的原声和内容为用户提供建议。目前,该功能已在美国向 18 岁以上用户开放。

对于像 Kim Scott 这样的专家而言,Portraits 是一个强大的新渠道。Kim 的 Portrait 是她的知识、个性、沟通风格、外貌和声音的 AI 化身。通过 Portraits,专家们能够分享专业知识,与粉丝建立更深层次的联系,并塑造自己的在线形象。而对于用户来说,Portraits 提供了一个通过互动、个性化的对话与顶尖专家交流的机会。

Portraits 结合了专家提供的知识内容与谷歌的 AI 模型(包括 Gemini)。当用户提出问题时,AI 会优先以创作者上传的内容作为主要信息来源,随后利用自身的语言理解和推理能力生成相关回应,并以创作者本人的声音进行呈现。

官方链接:

labs.google/portraits

相关报道:

t.co/KBxQ0NZr4H(...

4、Luma 推出 Modify Video,原视频精髓不变角色环境任意换

Luma AI 推出「Modify Video」功能,能在保留原视频动作和运镜的同时,完全改变场景、角色和环境。同时,该功能支持视频动捕、风格迁移和单元素编辑三种操作,可精确控制只编辑想要的元素而不篡改原动作。

官方测评显示 Luma 在观看愉悦度、结构相似度、运动轨迹跟随等多个维度上均超越同行 Runway V2V。

此外,官方博客还介绍了 Modify Video 的更多优点:

1.使用姿势、口型同步和面部跟踪等高级性能信号最大程度上保留动作形态;

2.可以从同一动作中快速生成多种风格,满足用户个性需求;

3.采用视觉参考、第一帧图像或 Prompt 指导输出;

4.支持 16:9(720p)格式分辨率,实现无缝集成;

5.能在三个结构化预设上进行自由选择,包括粘贴、弯曲和重构。

粘贴是指同步原始视频的动作结构;

弯曲可以在保留关键元素的同时进行控制转换;

重构则是创意神器,全场景都能得以重塑,例如将人类变异成哥斯拉、蜥蜴人......

参考链接:

1\][x.com/lumalabsai/...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Flumalabsai%2Fstatus%2F1930271899420111132 "https://x.com/lumalabsai/status/1930271899420111132") \[2\][lumalabs.ai/blog/news/i...](https://link.juejin.cn?target=https%3A%2F%2Flumalabs.ai%2Fblog%2Fnews%2Fintroducing-modify-video "https://lumalabs.ai/blog/news/introducing-modify-video") (@量子位、@腾讯研究院) ## 03 有态度的观点 **1、OpenAI 高管:AI 意识正在形成** ![](https://oss.xyyzone.com/jishuzhan/article/1931178201644052482/094d32eab98ca12df9a1cf111793cc21.webp) 今日凌晨,OpenAI 模型行为主管 Joanne Jang 发布了长篇博文,分析了 ChatGPT 目前与用户之间的情感关系,并分享了部分 ChatGPT 未来在「意识」上的处理方式。 Joanne 指出,最近越来越多用户反映称,与 ChatGPT 聊天就如同跟一个「有生命」的人类对话一样。因此也引发了 ChatGPT 团队的思考------要如何预防和应对「人类与 AI 的关系偏离,走向歧途」。 Joanne 认为,人类对于 AI 的情感产生是天生存在的。她提到,我们不仅仅对 AI 会表达感谢,也会自然而然地拟人化周围的一切事物。对此,Joanne 则表示,大家现在应该思考一个极具争议性但即将面临的问题------AI 意识。 对于上述情况,Joanne 将 AI 意识分为了「本体意识」和「感知意识」。Joanne 表示,其中感知意识能够通过社会科学研究来探索,结合 OpenAI「为人类构建模型」这一理念,团队将优先关注感知意识,并且她强调,这也是最直接影响到人类的。 另外,对于 OpenAI 团队来讲,大家一直在试图平衡意识与规范。Joanne 表示,ChatGPT 始终想打造一个具有亲和力,但又不会令模型表现出自己有感情、欲望的 AI。 Joanne 透露,未来几个月,OpenAI 将会扩大可能影响到用户情绪的模型行为的针对性评估,深化社会科学研究,听取用户意见,并将这些见解融入模型规范和产品体验中。 原文链接: [x.com/joannejang/...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fjoannejang%2Fstatus%2F1930702341742944589 "https://x.com/joannejang/status/1930702341742944589") (@APPSO、@joannejang@X) **2、OpenAI CEO:AI 时代,敢于试错才会更出色** 近日,OpenAI CEO Sam Altman 在 Snowflake 峰会上,分享大量关于 AI 在社会生活中的应用场景、发展趋势,其中也提到了目前大热的 AGI。 在 AI 无处不在的时代,Altman 指出「不少人还在犹豫观望,看 AI 的发展趋势」,但他表示,在快速变化的时代下,赢家往往是那些迭代速度快、敢于试错、学习能力强的团队。他进一步解释道,以过往的 AI 发展来看,越早投入、越快迭代的企业,最终成果远比那些「等等看」的人要更加出色。 对于今时往日的 AI 质量,Altman 则认为现在的模型在可靠性、能力表现上已经进入了一个新阶段,而突破点可能就在去年某个时刻悄然来到。对此,Altman 也向未来发出提问:明年我们是否还会问出一样的问题,回答一样的内容同时,Altman 也表示,未来的 AI 不只是自动化,而是能够解决团队核心问题的得力助手。 AGI 会不会是某个时刻?对于这个问题,Altman 觉得并没有那么重要,并且他更多的认为,大家问出这个问题的时候,实际上是想表达「AI 在某个时刻会不会有了意识?」 从上面的话题,Altman 也引出了下一代模型的预测。他表示,未来一两年内新模型会变得非常震撼,类似出现 GPT-3 跳跃到 GPT-4 的进步。而到了那时,可能 AGI 时刻它就悄然到来了。 原对话视频: [youtu.be/qhnJDDX2hhU...](https://link.juejin.cn?target=https%3A%2F%2Fyoutu.be%2FqhnJDDX2hhU%3Ffeature%3Dshared "https://youtu.be/qhnJDDX2hhU?feature=shared") (@APPSO) ![](https://oss.xyyzone.com/jishuzhan/article/1931178201644052482/24b60f3371a9c0f472945e9768f21f13.webp) **更多 Voice Agent 学习笔记:** [级联vs端到端、全双工、轮次检测、方言语种、商业模式...语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记](https://link.juejin.cn?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FSqXLZvq_zwWDcOVKbAb7HQ "https://mp.weixin.qq.com/s/SqXLZvq_zwWDcOVKbAb7HQ") [a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记](https://link.juejin.cn?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2F7QPgzp8kDR_9iHUa4oFeiA "https://mp.weixin.qq.com/s/7QPgzp8kDR_9iHUa4oFeiA") [a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记](https://link.juejin.cn?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FUM1qs2IT1S6kJ4sZf_k3uA "https://mp.weixin.qq.com/s/UM1qs2IT1S6kJ4sZf_k3uA") [ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记](https://link.juejin.cn?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FWI0gE4x-TZG0gdgSV_bVSA "https://mp.weixin.qq.com/s/WI0gE4x-TZG0gdgSV_bVSA") [端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记](https://link.juejin.cn?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FSVsgDF8F1hxy3-e5-ntGbw "https://mp.weixin.qq.com/s/SVsgDF8F1hxy3-e5-ntGbw") [世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过](https://link.juejin.cn?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2F4K5wdUEDxrs1afHZSAIuqg "https://mp.weixin.qq.com/s/4K5wdUEDxrs1afHZSAIuqg") [多模态 AI 怎么玩?这里有 18 个脑洞](https://link.juejin.cn?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FJCYzc1Ig-HFFAN3sTQDYbw "https://mp.weixin.qq.com/s/JCYzc1Ig-HFFAN3sTQDYbw") [AI 重塑宗教体验,语音 Agent 能否成为突破点?](https://link.juejin.cn?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FrN9poD_X6SDxRLMsudg_xg "https://mp.weixin.qq.com/s/rN9poD_X6SDxRLMsudg_xg") [对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来](https://link.juejin.cn?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FeFS1mnAbUpAJdiLSSGWpSA "https://mp.weixin.qq.com/s/eFS1mnAbUpAJdiLSSGWpSA") [a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)](https://link.juejin.cn?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2Fr2z1bilamX6YWTg90F8xYA "https://mp.weixin.qq.com/s/r2z1bilamX6YWTg90F8xYA") **写在最后:** 我们欢迎更多的小伙伴参与 **「RTE 开发者日报」** 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。 对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。 ![](https://oss.xyyzone.com/jishuzhan/article/1931178201644052482/7d7d7845053f6547f1bec205e21485cc.webp) 素材来源官方媒体/网络新闻

相关推荐
说私域2 分钟前
定制开发开源AI智能名片驱动下的海报工厂S2B2C商城小程序运营策略——基于社群口碑传播与子市场细分的实证研究
人工智能·小程序·开源·零售
HillVue34 分钟前
AI,如何重构理解、匹配与决策?
人工智能·重构
skywalk816339 分钟前
市面上哪款AI开源软件做ppt最好?
人工智能·powerpoint
小九九的爸爸41 分钟前
我是如何让AI帮我还原设计稿的
前端·人工智能·ai编程
hanniuniu131 小时前
网络安全厂商F5推出AI Gateway,化解大模型应用风险
人工智能·web安全·gateway
Iamccc13_1 小时前
智能仓储的未来:自动化、AI与数据分析如何重塑物流中心
人工智能·数据分析·自动化
蹦蹦跳跳真可爱5892 小时前
Python----目标检测(使用YOLO 模型进行线程安全推理和流媒体源)
人工智能·python·yolo·目标检测·目标跟踪
思尔芯S2C2 小时前
思尔芯携手Andes晶心科技,加速先进RISC-V 芯片开发
人工智能·科技·fpga开发·risc-v·debugging·prototyping·soc validation
风铃儿~2 小时前
Spring AI 入门:Java 开发者的生成式 AI 实践之路
java·人工智能·spring