Amphion 推出合成音频鉴别系统 Auditi；Gemini 引入 NotebookLM 功能，生成文档、网页音频摘要丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq、@鲍勃

01 有话题的技术

1、腾讯混元推出多个全新开源 3D 生成模型

昨日，腾讯混元大模型推出 5 个全新 3D 生成模型并宣布全部开源，同时升级了自研的 3D AI 创作引擎。据了解，5 个开源模型均基于 Hunyuan3D-2.0 打造，具体来看：

Turbo 系列模型，通过 FlashVDM 框架实现数十倍加速，将生成时间缩短至 30 秒内；
多视图版本模型如 Hunyuan3D-2-MV，结合多视角输入提升细节捕捉能力；
轻量级 mini 系列模型优化架构，支持在 4080 显卡和苹果 M1 Pro 芯片上运行，降低算力成本。

面向创作者的「腾讯混元 3D AI 创作引擎」也迎来升级。用户仅需上传 2-4 张图片，即可快速生成高质量 3D 模型，并具备智能减面能力，可在低面片基础上保留细节，让模型边缘更顺滑、结构更整齐。此外，引擎提升了 PBR 材质生成效果，让模型的光影看起来更真实，兼容多种主流格式（如 OBJ、GLB、FBX 等），无缝对接 3D 打印和移动端实时交互需求。(@ APPSO)

2、从刘德华到雷军，AI 合成音频猖獗？Amphion 一键识别

AI 伪造音频视频不仅严重侵犯个人与企业的合法权益，如卢某某遭恶意伪造音视频、刘德华声音被冒用引流牟利、雷军被 AI 恶意模仿损害公众形象，还会误导社会公众认知，扰乱网络信息传播秩序。此类行为破坏内容真实性，滋生虚假信息，损害个人名誉与企业品牌信誉，更可能引发公众信任危机，污染网络生态环境，亟需通过法律监管与技术治理，遏制伪造音视频乱象，维护健康有序的网络空间。

Auditi: 多语言多类型 AI 合成音频鉴别系统

香港中文大学（深圳）- 深圳市大数据研究院 - 深圳市跨模态认知计算重点实验室武执政教授项目组利用多语言、多伪造模型及多样化数据来训练模型：

1️⃣多语言覆盖：支持 38 种语言，包含中文、英语、俄语、韩语等主流语种；

2️⃣多伪造模型：集成 59 种模型结构，既涵盖基于声码器的经典模型（如 MelGAN），也包含基于 Codec 的前沿模型（如 VALL-E）；

3️⃣多样化数据：数据来源广泛，整合有声书、博客、互联网等多元渠道内容，包含丰富的数据类型与采集场景。

3、马斯克收购 Hotshot 剑指视频生成赛道，短期内 Grok Video 或加速面世

（图片来源：Hotshot）

根据 Hotshot 的 CEO 兼联合创始人 Aakash Sastry 在 X 上发布的帖子，Elon Musk 的 xAI 已收购了文本转视频初创公司 Hotshot。

自 2023 年成立以来，Hotshot 已开发出三款视频生成 AI 模型，分别名为 Hotshot-XL、Hotshot Act One 和 Hotshot。

这些模型以及 Hotshot 的研究和工程人才可能对 xAI 有所帮助，因为 xAI 正致力于开发自己的视频 AI，以与 OpenAI 的 Sora 等竞争对手产品竞争。马斯克旗下的 AI 初创公司运营着 Grok 聊天机器人，他在 1 月的一次直播中表示，他预计「Grok Video」模型将在「几个月内」发布。

Hotshot 总部位于旧金山，由 Sastry 和 John Mullan 于几年前创立。 这家初创公司最初专注于开发基于 AI 的照片创建和编辑工具，但最终转向了文本到视频的 AI 模型。

xAI 收购 Hotshot 可能表明前者计划构建自己的视频生成模型，以与 Sora、Google 的 Veo 2 等竞争。马斯克此前曾暗示，xAI 正在开发视频生成模型，以增强其 Grok 聊天机器人平台。(@ Z Potentials)

4、一句话建模的时代来了，元宇宙巨头 Roblox 发布 AI 生 3D 大模型

Roblox 周一宣布推出其首个 AI 生 3D 的基础模型：名为「Cube」，允许创作者使用生成式 AI 创建 3D 对象。该公司还发布了开源版本，使平台外的任何人都可以基于它进行构建。

目前处于测试阶段的 Cube 3D Mesh 生成功能，使创作者能够通过单个提示生成「网格」（即物体的 3D 表示）。例如，「生成一辆带黑色条纹的橙色赛车」。创作者可以在 Roblox Studio 中进一步调整游戏内物品。

文本生成工具让开发者能够在游戏中添加基于文本的 AI 功能。这包括给玩家提供与交互式非玩家角色（NPCs）进行对话的选项。

与此同时，文本转语音功能让开发者可以添加旁白、让 NPC 说话或在游戏中包含语音字幕。语音转文本则允许玩家使用语音命令，比如指挥角色向前移动。

该公司未来的其他计划包括为更「复杂」的对象推出网格生成和场景生成功能。例如，场景生成工具将允许创作者提示 AI 制作完整的森林场景，并将树上的绿叶变成秋季颜色以展示季节变化。（@三次方 AIRX）

5、英伟达正式发布 Isaac GR00T（GR00T N1）：全球首款开源且可定制的通用人形机器人基础模型

在机器人领域，英伟达正式发布了 Isaac GR00T（GR00T N1），这是全球首款开源的、可定制的通用人形机器人基础模型。

GR00T N1 采用双系统架构， 灵感来源于人类认知原理。 其中，「系统 1」是一个快速思考的行动模型，类似于人类的直觉和反射；「系统 2」则是一个慢速思考模型，用于深思熟虑的决策制定。

GR00T N1 可轻松适配多种常见任务，例如抓取、双臂搬运、单臂与双臂协作，以及多步复杂操作，适用于物料搬运、包装和检测等场景。

该模型已经被多家机器人制造商采用，包括 Fourier GR-01、Agility Robotics、Boston Dynamics 等，助力类人机器人进入更广泛的商业应用场景。

此外，英伟达还推出了一系列模拟框架和方案，包括 NVIDIA Isaac GR00T 方案，用于生成合成数据，以及 Newton------一款开源物理引擎，该引擎由英伟达与 Google DeepMind 和迪士尼研究院共同开发，专门用于机器人研发。

对比来看，去年 GTC 大会上，英伟达就发布了人形机器人通用基础模型 Project GR00T，以及基于 NVIDIA Thor 系统级芯片（SoC）的新型人形机器人计算机 Jetson Thor。今年，英伟达在机器人基础模型和体系化的解决方案上再次升级。

摩根大通表示，英伟达已经宣布其全球 AI 基础模型平台 Cosmos 以及其人形机器人开发平台 GR00T，未来在 Physical AI 方面预计会有更多突破。随着多模态 AI 的进步以及机器人和数字孪生等新举措的推出，全球模型 Physical AI 模型开发方面可能会有更多进展。（@ 21 世纪经济报道）

02 有亮点的产品

1、谷歌 Gemini 新功能：Canvas 和 Audio Overview

Google 近日为其基于人工智能的聊天机器人 Gemini 推出了一项名为「Canvas」的新功能，旨在提升用户的创作和协作体验。这一功能与 OpenAI 的 ChatGPT Canvas 和 Anthropic 的 Artifacts 中的同名工具类似，为 Gemini 用户提供了一个互动空间，方便他们创建、改进和分享写作与编程项目。

Canvas 允许用户通过专用工具更新草稿的特定部分，用户只需简单突出显示某个段落，便可以要求 Gemini 对其进行简化、专业化或调整为更为非正式的风格。例如，如果用户希望为自己的内容添加专业色彩，只需一键导出到 Google Docs，便可与他人协作。

除了文本处理功能，Gemini 的 Canvas 还具备编程相关的工具，用户可以生成和预览 HTML、React 代码等 Web 应用原型。当用户请求更改时，Canvas 会实时刷新预览。例如，用户可以要求 Gemini 生成一个电子邮件订阅表单的 HTML，并预览其在网页上的显示效果。

此外，Google 还在此次更新中引入了 NotebookLM 的音频概览功能。该功能能够生成文档、网页及其他来源的音频摘要，以播客形式呈现。用户只需通过提示栏上传文档，便可以迅速生成音频摘要，方便随时下载或分享。（@ AIbase 基地）

2、18 岁创始人用硬核技术打造现象级 AI 健康应用 Cal AI，8 个月狂揽 500 万下载

在充斥着各种「氛围编码」和过度炒作的科技创业圈，Cal AI 及其年仅 18 岁的创始人扎克·亚德加里（Zach Yadegari）显得格外不同，形成了一种既讽刺又令人尊敬的「老派」对比。令人难以置信的是，亚德加里和他的联合创始人亨利·朗马克（Henry Langmack）都刚刚高中毕业，但他们的创业故事却已成为经典案例。

据亚德加里透露，Cal AI 于去年 5 月份推出，在短短八个月内，其下载量已突破 500 万次。更令人振奋的是，用户留存率高达 30% 以上，且该应用上个月的收入已超过 200 万美元。虽然 TechCrunch 尚未能独立验证这些数据，但 Cal AI 在苹果 App Store 上获得了 4.8 星的平均评分，累计超过 6.6 万条用户评论；在 Google Play 商店的下载量也已超过 100 万次，并在近 7.5 万条评论中同样获得了 4.8 星的高分。

Cal AI 的核心理念简单而实用：用户只需拍摄一张食物的照片，应用程序便能自动分析并记录其卡路里和宏量营养素含量。尽管这一想法并非首创，市场上已有 MyFitnessPal 等老牌应用提供类似功能，以及像 SnapCalorie 这样由 Google Lens 创始人创建的新兴竞品，但 Cal AI 的独特优势在于其完全构建于大型图像模型时代。

它巧妙地利用 Anthropic、OpenAI 和 RAG 等先进模型来提升识别准确率，并基于 GitHub 等平台的开源食物卡路里和图像数据库进行训练。亚德加里强调：「我们发现不同的模型在识别不同的食物时表现更佳。」

为了实现高精度的识别，Cal AI 的创始团队通过自身的技术实力解决了诸多挑战，例如准确识别食品包装上的信息以及杂乱碗中混合的食材。最终，他们声称该应用的识别准确率已达到 90%，这对于许多注重饮食健康的消费者来说已经足够可靠。（@ AIbase 基地）

03 有态度的观点

1、阿里巴巴董事长：AI 真正价值在于如何实际应用

近日，阿里巴巴集团董事长蔡崇信出席由 CNBC 主办、在新加坡举办的 CONVERGE LIVE 论坛活动。蔡崇信在访谈中预测了未来 AI 市场的发展。蔡崇信在访谈中表示，人工智能未来可能会减少对分析师的需求，并认为分析师可能会被 AI 取代。其分析，AI 可以撰写一份英伟达或者苹果的报告，并且 AI 会完成得很出色。但蔡崇信也强调，上述情况并非意味着分析师这一岗位会完全消失。

对于「未来市场有多大」，蔡崇信预测表示，全球 GDP 总量约 100 万亿美元，约 60% 由人类劳动贡献，若 AI 能替代其中 20% 的工作，并以成本降低 20% 实现，那么将创造至少 10 万亿美元的市场规模。由此也引发了蔡崇信对 AGI 的看法，其认为，在 AGI 实现之前，人类都还将面临很多定义 AGI 的问题，例如最聪明的 AI 意味着什么？最后，蔡崇信也强调了自己的核心观点 ------ AI 的真正价值在于如何将技术应用到实际场景中，并创造商业价值和用户体验提升。同时蔡崇信也坚信，AI 在未来并不会完全取代人类，实际上它只会帮助人类提升工作效率。(@ APPSO)

更多 Voice Agent 学习笔记：

ElevenLabs 33 亿美元估值的秘密：技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代，每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司，举办了一场全球黑客松，冠军作品你可能已经看过

多模态 AI 怎么玩？这里有 18 个脑洞

AI 重塑宗教体验，语音 Agent 能否成为突破点？

对话 TalktoApps 创始人：Voice AI 提高了我五倍的生产力，语音输入是人机交互的未来

2024，语音 AI 元年；2025，Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管：打造通用 AI 助理，主动视频交互和全双工对话是未来重点

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻