开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq、@鲍勃
01 有话题的技术
1、腾讯混元推出多个全新开源 3D 生成模型
昨日,腾讯混元大模型推出 5 个全新 3D 生成模型并宣布全部开源,同时升级了自研的 3D AI 创作引擎。据了解,5 个开源模型均基于 Hunyuan3D-2.0 打造,具体来看:
-
Turbo 系列模型,通过 FlashVDM 框架实现数十倍加速,将生成时间缩短至 30 秒内;
-
多视图版本模型如 Hunyuan3D-2-MV,结合多视角输入提升细节捕捉能力;
-
轻量级 mini 系列模型优化架构,支持在 4080 显卡和苹果 M1 Pro 芯片上运行,降低算力成本。
面向创作者的「腾讯混元 3D AI 创作引擎」也迎来升级。用户仅需上传 2-4 张图片,即可快速生成高质量 3D 模型,并具备智能减面能力,可在低面片基础上保留细节,让模型边缘更顺滑、结构更整齐。此外,引擎提升了 PBR 材质生成效果,让模型的光影看起来更真实,兼容多种主流格式(如 OBJ、GLB、FBX 等),无缝对接 3D 打印和移动端实时交互需求。(@ APPSO)
2、从刘德华到雷军,AI 合成音频猖獗?Amphion 一键识别
AI 伪造音频视频不仅严重侵犯个人与企业的合法权益,如卢某某遭恶意伪造音视频、刘德华声音被冒用引流牟利、雷军被 AI 恶意模仿损害公众形象,还会误导社会公众认知,扰乱网络信息传播秩序。此类行为破坏内容真实性,滋生虚假信息,损害个人名誉与企业品牌信誉,更可能引发公众信任危机,污染网络生态环境,亟需通过法律监管与技术治理,遏制伪造音视频乱象,维护健康有序的网络空间。
Auditi: 多语言多类型 AI 合成音频鉴别系统
香港中文大学(深圳)- 深圳市大数据研究院 - 深圳市跨模态认知计算重点实验室武执政教授项目组利用多语言、多伪造模型及多样化数据来训练模型:
1️⃣多语言覆盖:支持 38 种语言,包含中文、英语、俄语、韩语等主流语种;
2️⃣多伪造模型:集成 59 种模型结构,既涵盖基于声码器的经典模型(如 MelGAN),也包含基于 Codec 的前沿模型(如 VALL-E);
3️⃣多样化数据:数据来源广泛,整合有声书、博客、互联网等多元渠道内容,包含丰富的数据类型与采集场景。
3、马斯克收购 Hotshot 剑指视频生成赛道,短期内 Grok Video 或加速面世
(图片来源:Hotshot)
根据 Hotshot 的 CEO 兼联合创始人 Aakash Sastry 在 X 上发布的帖子,Elon Musk 的 xAI 已收购了文本转视频初创公司 Hotshot。
自 2023 年成立以来,Hotshot 已开发出三款视频生成 AI 模型,分别名为 Hotshot-XL、Hotshot Act One 和 Hotshot。
这些模型以及 Hotshot 的研究和工程人才可能对 xAI 有所帮助,因为 xAI 正致力于开发自己的视频 AI,以与 OpenAI 的 Sora 等竞争对手产品竞争。马斯克旗下的 AI 初创公司运营着 Grok 聊天机器人,他在 1 月的一次直播中表示,他预计「Grok Video」模型将在「几个月内」发布。
Hotshot 总部位于旧金山,由 Sastry 和 John Mullan 于几年前创立。 这家初创公司最初专注于开发基于 AI 的照片创建和编辑工具,但最终转向了文本到视频的 AI 模型。
xAI 收购 Hotshot 可能表明前者计划构建自己的视频生成模型,以与 Sora、Google 的 Veo 2 等竞争。马斯克此前曾暗示,xAI 正在开发视频生成模型,以增强其 Grok 聊天机器人平台。(@ Z Potentials)
4、一句话建模的时代来了,元宇宙巨头 Roblox 发布 AI 生 3D 大模型
Roblox 周一宣布推出其首个 AI 生 3D 的基础模型:名为「Cube」,允许创作者使用生成式 AI 创建 3D 对象。该公司还发布了开源版本,使平台外的任何人都可以基于它进行构建。
目前处于测试阶段的 Cube 3D Mesh 生成功能,使创作者能够通过单个提示生成「网格」(即物体的 3D 表示)。例如,「生成一辆带黑色条纹的橙色赛车」。创作者可以在 Roblox Studio 中进一步调整游戏内物品。
文本生成工具让开发者能够在游戏中添加基于文本的 AI 功能。这包括给玩家提供与交互式非玩家角色(NPCs)进行对话的选项。
与此同时,文本转语音功能让开发者可以添加旁白、让 NPC 说话或在游戏中包含语音字幕。语音转文本则允许玩家使用语音命令,比如指挥角色向前移动。
该公司未来的其他计划包括为更「复杂」的对象推出网格生成和场景生成功能。例如,场景生成工具将允许创作者提示 AI 制作完整的森林场景,并将树上的绿叶变成秋季颜色以展示季节变化。(@三次方 AIRX)
5、英伟达正式发布 Isaac GR00T(GR00T N1):全球首款开源且可定制的通用人形机器人基础模型
在机器人领域,英伟达正式发布了 Isaac GR00T(GR00T N1),这是全球首款开源的、可定制的通用人形机器人基础模型。
GR00T N1 采用双系统架构, 灵感来源于人类认知原理。 其中,「系统 1」 是一个快速思考的行动模型,类似于人类的直觉和反射;「系统 2」 则是一个慢速思考模型,用于深思熟虑的决策制定。
GR00T N1 可轻松适配多种常见任务,例如抓取、双臂搬运、单臂与双臂协作,以及多步复杂操作,适用于物料搬运、包装和检测等场景。
该模型已经被多家机器人制造商采用,包括 Fourier GR-01、Agility Robotics、Boston Dynamics 等,助力类人机器人进入更广泛的商业应用场景。
此外,英伟达还推出了一系列模拟框架和方案,包括 NVIDIA Isaac GR00T 方案,用于生成合成数据,以及 Newton------一款开源物理引擎,该引擎由英伟达与 Google DeepMind 和迪士尼研究院 共同开发,专门用于机器人研发。
对比来看,去年 GTC 大会上,英伟达就发布了人形机器人通用基础模型 Project GR00T,以及基于 NVIDIA Thor 系统级芯片(SoC)的新型人形机器人计算机 Jetson Thor。今年,英伟达在机器人基础模型和体系化的解决方案上再次升级。
摩根大通表示,英伟达已经宣布其全球 AI 基础模型平台 Cosmos 以及其人形机器人开发平台 GR00T,未来在 Physical AI 方面预计会有更多突破。随着多模态 AI 的进步以及机器人和数字孪生等新举措的推出,全球模型 Physical AI 模型开发方面可能会有更多进展。(@ 21 世纪经济报道)
02 有亮点的产品
1、谷歌 Gemini 新功能:Canvas 和 Audio Overview
Google 近日为其基于人工智能的聊天机器人 Gemini 推出了一项名为 「Canvas」 的新功能,旨在提升用户的创作和协作体验。这一功能与 OpenAI 的 ChatGPT Canvas 和 Anthropic 的 Artifacts 中的同名工具类似,为 Gemini 用户提供了一个互动空间,方便他们创建、改进和分享写作与编程项目。
Canvas 允许用户通过专用工具更新草稿的特定部分,用户只需简单突出显示某个段落,便可以要求 Gemini 对其进行简化、专业化或调整为更为非正式的风格。例如,如果用户希望为自己的内容添加专业色彩,只需一键导出到 Google Docs,便可与他人协作。
除了文本处理功能,Gemini 的 Canvas 还具备编程相关的工具,用户可以生成和预览 HTML、React 代码等 Web 应用原型。当用户请求更改时,Canvas 会实时刷新预览。例如,用户可以要求 Gemini 生成一个电子邮件订阅表单的 HTML,并预览其在网页上的显示效果。
此外,Google 还在此次更新中引入了 NotebookLM 的音频概览功能。该功能能够生成文档、网页及其他来源的音频摘要,以播客形式呈现。用户只需通过提示栏上传文档,便可以迅速生成音频摘要,方便随时下载或分享。(@ AIbase 基地)
2、18 岁创始人用硬核技术打造现象级 AI 健康应用 Cal AI,8 个月狂揽 500 万下载
在充斥着各种「氛围编码」和过度炒作的科技创业圈,Cal AI 及其年仅 18 岁的创始人扎克·亚德加里(Zach Yadegari)显得格外不同,形成了一种既讽刺又令人尊敬的「老派」对比。令人难以置信的是,亚德加里和他的联合创始人亨利·朗马克(Henry Langmack)都刚刚高中毕业,但他们的创业故事却已成为经典案例。
据亚德加里透露,Cal AI 于去年 5 月份推出,在短短八个月内,其下载量已突破 500 万次。更令人振奋的是,用户留存率高达 30% 以上,且该应用上个月的收入已超过 200 万美元。虽然 TechCrunch 尚未能独立验证这些数据,但 Cal AI 在苹果 App Store 上获得了 4.8 星的平均评分,累计超过 6.6 万条用户评论;在 Google Play 商店的下载量也已超过 100 万次,并在近 7.5 万条评论中同样获得了 4.8 星的高分。
Cal AI 的核心理念简单而实用:用户只需拍摄一张食物的照片,应用程序便能自动分析并记录其卡路里和宏量营养素含量。尽管这一想法并非首创,市场上已有 MyFitnessPal 等老牌应用提供类似功能,以及像 SnapCalorie 这样由 Google Lens 创始人创建的新兴竞品,但 Cal AI 的独特优势在于其完全构建于大型图像模型时代。
它巧妙地利用 Anthropic、OpenAI 和 RAG 等先进模型来提升识别准确率,并基于 GitHub 等平台的开源食物卡路里和图像数据库进行训练。亚德加里强调:「我们发现不同的模型在识别不同的食物时表现更佳。」
为了实现高精度的识别,Cal AI 的创始团队通过自身的技术实力解决了诸多挑战,例如准确识别食品包装上的信息以及杂乱碗中混合的食材。最终,他们声称该应用的识别准确率已达到 90%,这对于许多注重饮食健康的消费者来说已经足够可靠。(@ AIbase 基地)
03 有态度的观点
1、阿里巴巴董事长:AI 真正价值在于如何实际应用
近日,阿里巴巴集团董事长蔡崇信出席由 CNBC 主办、在新加坡举办的 CONVERGE LIVE 论坛活动。蔡崇信在访谈中预测了未来 AI 市场的发展。蔡崇信在访谈中表示,人工智能未来可能会减少对分析师的需求,并认为分析师可能会被 AI 取代。其分析,AI 可以撰写一份英伟达或者苹果的报告,并且 AI 会完成得很出色。但蔡崇信也强调,上述情况并非意味着分析师这一岗位会完全消失。
对于「未来市场有多大」,蔡崇信预测表示,全球 GDP 总量约 100 万亿美元,约 60% 由人类劳动贡献,若 AI 能替代其中 20% 的工作,并以成本降低 20% 实现,那么将创造至少 10 万亿美元的市场规模。由此也引发了蔡崇信对 AGI 的看法,其认为,在 AGI 实现之前,人类都还将面临很多定义 AGI 的问题,例如最聪明的 AI 意味着什么?最后,蔡崇信也强调了自己的核心观点 ------ AI 的真正价值在于如何将技术应用到实际场景中,并创造商业价值和用户体验提升。同时蔡崇信也坚信,AI 在未来并不会完全取代人类,实际上它只会帮助人类提升工作效率。(@ APPSO)
更多 Voice Agent 学习笔记:
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻