Amphion 推出合成音频鉴别系统 Auditi;Gemini 引入 NotebookLM 功能,生成文档、网页音频摘要丨日报

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq、@鲍勃

01 有话题的技术

1、腾讯混元推出多个全新开源 3D 生成模型

昨日,腾讯混元大模型推出 5 个全新 3D 生成模型并宣布全部开源,同时升级了自研的 3D AI 创作引擎。据了解,5 个开源模型均基于 Hunyuan3D-2.0 打造,具体来看:

  • Turbo 系列模型,通过 FlashVDM 框架实现数十倍加速,将生成时间缩短至 30 秒内;

  • 多视图版本模型如 Hunyuan3D-2-MV,结合多视角输入提升细节捕捉能力;

  • 轻量级 mini 系列模型优化架构,支持在 4080 显卡和苹果 M1 Pro 芯片上运行,降低算力成本。

面向创作者的「腾讯混元 3D AI 创作引擎」也迎来升级。用户仅需上传 2-4 张图片,即可快速生成高质量 3D 模型,并具备智能减面能力,可在低面片基础上保留细节,让模型边缘更顺滑、结构更整齐。此外,引擎提升了 PBR 材质生成效果,让模型的光影看起来更真实,兼容多种主流格式(如 OBJ、GLB、FBX 等),无缝对接 3D 打印和移动端实时交互需求。(@ APPSO)

2、从刘德华到雷军,AI 合成音频猖獗?Amphion 一键识别

AI 伪造音频视频不仅严重侵犯个人与企业的合法权益,如卢某某遭恶意伪造音视频、刘德华声音被冒用引流牟利、雷军被 AI 恶意模仿损害公众形象,还会误导社会公众认知,扰乱网络信息传播秩序。此类行为破坏内容真实性,滋生虚假信息,损害个人名誉与企业品牌信誉,更可能引发公众信任危机,污染网络生态环境,亟需通过法律监管与技术治理,遏制伪造音视频乱象,维护健康有序的网络空间。

Auditi: 多语言多类型 AI 合成音频鉴别系统

香港中文大学(深圳)- 深圳市大数据研究院 - 深圳市跨模态认知计算重点实验室武执政教授项目组利用多语言、多伪造模型及多样化数据来训练模型:

1️⃣多语言覆盖:支持 38 种语言,包含中文、英语、俄语、韩语等主流语种;

2️⃣多伪造模型:集成 59 种模型结构,既涵盖基于声码器的经典模型(如 MelGAN),也包含基于 Codec 的前沿模型(如 VALL-E);

3️⃣多样化数据:数据来源广泛,整合有声书、博客、互联网等多元渠道内容,包含丰富的数据类型与采集场景。

3、马斯克收购 Hotshot 剑指视频生成赛道,短期内 Grok Video 或加速面世

(图片来源:Hotshot)

根据 Hotshot 的 CEO 兼联合创始人 Aakash Sastry 在 X 上发布的帖子,Elon Musk 的 xAI 已收购了文本转视频初创公司 Hotshot。

自 2023 年成立以来,Hotshot 已开发出三款视频生成 AI 模型,分别名为 Hotshot-XL、Hotshot Act One 和 Hotshot。

这些模型以及 Hotshot 的研究和工程人才可能对 xAI 有所帮助,因为 xAI 正致力于开发自己的视频 AI,以与 OpenAI 的 Sora 等竞争对手产品竞争。马斯克旗下的 AI 初创公司运营着 Grok 聊天机器人,他在 1 月的一次直播中表示,他预计「Grok Video」模型将在「几个月内」发布。

Hotshot 总部位于旧金山,由 Sastry 和 John Mullan 于几年前创立。 这家初创公司最初专注于开发基于 AI 的照片创建和编辑工具,但最终转向了文本到视频的 AI 模型。

xAI 收购 Hotshot 可能表明前者计划构建自己的视频生成模型,以与 Sora、Google 的 Veo 2 等竞争。马斯克此前曾暗示,xAI 正在开发视频生成模型,以增强其 Grok 聊天机器人平台。(@ Z Potentials)

4、一句话建模的时代来了,元宇宙巨头 Roblox 发布 AI 生 3D 大模型

Roblox 周一宣布推出其首个 AI 生 3D 的基础模型:名为「Cube」,允许创作者使用生成式 AI 创建 3D 对象。该公司还发布了开源版本,使平台外的任何人都可以基于它进行构建。

目前处于测试阶段的 Cube 3D Mesh 生成功能,使创作者能够通过单个提示生成「网格」(即物体的 3D 表示)。例如,「生成一辆带黑色条纹的橙色赛车」。创作者可以在 Roblox Studio 中进一步调整游戏内物品。

文本生成工具让开发者能够在游戏中添加基于文本的 AI 功能。这包括给玩家提供与交互式非玩家角色(NPCs)进行对话的选项。

与此同时,文本转语音功能让开发者可以添加旁白、让 NPC 说话或在游戏中包含语音字幕。语音转文本则允许玩家使用语音命令,比如指挥角色向前移动。

该公司未来的其他计划包括为更「复杂」的对象推出网格生成和场景生成功能。例如,场景生成工具将允许创作者提示 AI 制作完整的森林场景,并将树上的绿叶变成秋季颜色以展示季节变化。(@三次方 AIRX)

5、英伟达正式发布 Isaac GR00T(GR00T N1):全球首款开源且可定制的通用人形机器人基础模型

在机器人领域,英伟达正式发布了 Isaac GR00T(GR00T N1),这是全球首款开源的、可定制的通用人形机器人基础模型。

GR00T N1 采用双系统架构, 灵感来源于人类认知原理。 其中,「系统 1」 是一个快速思考的行动模型,类似于人类的直觉和反射;「系统 2」 则是一个慢速思考模型,用于深思熟虑的决策制定。

GR00T N1 可轻松适配多种常见任务,例如抓取、双臂搬运、单臂与双臂协作,以及多步复杂操作,适用于物料搬运、包装和检测等场景。

该模型已经被多家机器人制造商采用,包括 Fourier GR-01、Agility Robotics、Boston Dynamics 等,助力类人机器人进入更广泛的商业应用场景。

此外,英伟达还推出了一系列模拟框架和方案,包括 NVIDIA Isaac GR00T 方案,用于生成合成数据,以及 Newton------一款开源物理引擎,该引擎由英伟达与 Google DeepMind 和迪士尼研究院 共同开发,专门用于机器人研发。

对比来看,去年 GTC 大会上,英伟达就发布了人形机器人通用基础模型 Project GR00T,以及基于 NVIDIA Thor 系统级芯片(SoC)的新型人形机器人计算机 Jetson Thor。今年,英伟达在机器人基础模型和体系化的解决方案上再次升级。

摩根大通表示,英伟达已经宣布其全球 AI 基础模型平台 Cosmos 以及其人形机器人开发平台 GR00T,未来在 Physical AI 方面预计会有更多突破。随着多模态 AI 的进步以及机器人和数字孪生等新举措的推出,全球模型 Physical AI 模型开发方面可能会有更多进展。(@ 21 世纪经济报道)

02 有亮点的产品

1、谷歌 Gemini 新功能:Canvas 和 Audio Overview

Google 近日为其基于人工智能的聊天机器人 Gemini 推出了一项名为 「Canvas」 的新功能,旨在提升用户的创作和协作体验。这一功能与 OpenAI 的 ChatGPT Canvas 和 Anthropic 的 Artifacts 中的同名工具类似,为 Gemini 用户提供了一个互动空间,方便他们创建、改进和分享写作与编程项目。

Canvas 允许用户通过专用工具更新草稿的特定部分,用户只需简单突出显示某个段落,便可以要求 Gemini 对其进行简化、专业化或调整为更为非正式的风格。例如,如果用户希望为自己的内容添加专业色彩,只需一键导出到 Google Docs,便可与他人协作。

除了文本处理功能,Gemini 的 Canvas 还具备编程相关的工具,用户可以生成和预览 HTML、React 代码等 Web 应用原型。当用户请求更改时,Canvas 会实时刷新预览。例如,用户可以要求 Gemini 生成一个电子邮件订阅表单的 HTML,并预览其在网页上的显示效果。

此外,Google 还在此次更新中引入了 NotebookLM 的音频概览功能。该功能能够生成文档、网页及其他来源的音频摘要,以播客形式呈现。用户只需通过提示栏上传文档,便可以迅速生成音频摘要,方便随时下载或分享。(@ AIbase 基地)

2、18 岁创始人用硬核技术打造现象级 AI 健康应用 Cal AI,8 个月狂揽 500 万下载

在充斥着各种「氛围编码」和过度炒作的科技创业圈,Cal AI 及其年仅 18 岁的创始人扎克·亚德加里(Zach Yadegari)显得格外不同,形成了一种既讽刺又令人尊敬的「老派」对比。令人难以置信的是,亚德加里和他的联合创始人亨利·朗马克(Henry Langmack)都刚刚高中毕业,但他们的创业故事却已成为经典案例。

据亚德加里透露,Cal AI 于去年 5 月份推出,在短短八个月内,其下载量已突破 500 万次。更令人振奋的是,用户留存率高达 30% 以上,且该应用上个月的收入已超过 200 万美元。虽然 TechCrunch 尚未能独立验证这些数据,但 Cal AI 在苹果 App Store 上获得了 4.8 星的平均评分,累计超过 6.6 万条用户评论;在 Google Play 商店的下载量也已超过 100 万次,并在近 7.5 万条评论中同样获得了 4.8 星的高分。

Cal AI 的核心理念简单而实用:用户只需拍摄一张食物的照片,应用程序便能自动分析并记录其卡路里和宏量营养素含量。尽管这一想法并非首创,市场上已有 MyFitnessPal 等老牌应用提供类似功能,以及像 SnapCalorie 这样由 Google Lens 创始人创建的新兴竞品,但 Cal AI 的独特优势在于其完全构建于大型图像模型时代。

它巧妙地利用 Anthropic、OpenAI 和 RAG 等先进模型来提升识别准确率,并基于 GitHub 等平台的开源食物卡路里和图像数据库进行训练。亚德加里强调:「我们发现不同的模型在识别不同的食物时表现更佳。」

为了实现高精度的识别,Cal AI 的创始团队通过自身的技术实力解决了诸多挑战,例如准确识别食品包装上的信息以及杂乱碗中混合的食材。最终,他们声称该应用的识别准确率已达到 90%,这对于许多注重饮食健康的消费者来说已经足够可靠。(@ AIbase 基地)

03 有态度的观点

1、阿里巴巴董事长:AI 真正价值在于如何实际应用

近日,阿里巴巴集团董事长蔡崇信出席由 CNBC 主办、在新加坡举办的 CONVERGE LIVE 论坛活动。蔡崇信在访谈中预测了未来 AI 市场的发展。蔡崇信在访谈中表示,人工智能未来可能会减少对分析师的需求,并认为分析师可能会被 AI 取代。其分析,AI 可以撰写一份英伟达或者苹果的报告,并且 AI 会完成得很出色。但蔡崇信也强调,上述情况并非意味着分析师这一岗位会完全消失。

对于「未来市场有多大」,蔡崇信预测表示,全球 GDP 总量约 100 万亿美元,约 60% 由人类劳动贡献,若 AI 能替代其中 20% 的工作,并以成本降低 20% 实现,那么将创造至少 10 万亿美元的市场规模。由此也引发了蔡崇信对 AGI 的看法,其认为,在 AGI 实现之前,人类都还将面临很多定义 AGI 的问题,例如最聪明的 AI 意味着什么?最后,蔡崇信也强调了自己的核心观点 ------ AI 的真正价值在于如何将技术应用到实际场景中,并创造商业价值和用户体验提升。同时蔡崇信也坚信,AI 在未来并不会完全取代人类,实际上它只会帮助人类提升工作效率。(@ APPSO)

更多 Voice Agent 学习笔记:

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

相关推荐
三翼鸟数字化技术团队9 分钟前
QWen 和 DeepSeek 入门指南
人工智能·deepseek·ai 编程
SecPulse12 分钟前
xss注入实验(xss-lab)
服务器·前端·人工智能·网络安全·智能路由器·github·xss
jndingxin34 分钟前
OpenCV图像拼接(1)概述
人工智能·opencv·计算机视觉
大模型任我行39 分钟前
英伟达:LLM两阶段KV缓存压缩
人工智能·语言模型·自然语言处理·论文笔记
数据堂官方账号1 小时前
数据驱动进化:AI Agent如何重构手机交互范式?
人工智能·智能手机·重构·数据集·ai大模型·ai agent
青松@FasterAI1 小时前
【Arxiv 大模型最新进展】普林斯顿大学提出 TreeBoN !大语言模型推理效能「提升秘籍」曝光
人工智能·语言模型·自然语言处理
一瓢一瓢的饮 alanchan1 小时前
通过AI自动生成springboot的CRUD以及单元测试与压力测试源码(完整版)
人工智能·spring boot·单元测试·压力测试·jpa·aicoder·java crud
袁煦丞2 小时前
3分钟生成4K电影海报?这个AI工具让小白秒变大神!用内网穿透还能远程操控!
人工智能·程序员·远程工作
轻松Ai享生活2 小时前
2025 年 10 个不可不知的人工智能代理
人工智能
水深00安东尼2 小时前
PairRE: Knowledge Graph Embeddings via Paired Relation Vectors(论文笔记)
人工智能·知识图谱