开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq、@鲍勃
01 有话题的技术
1、DeepSeek 无预告更新 V3 模型,采用更开放的 MIT 开源许可
昨晚,DeepSeek 毫无预告的情况下,在 Hugging Face 上放出了最新的 DeepSeek-V3-0324 模型。先来看重点:DeepSeek-V3-0324 模型参数达 685B,目前在官方网站、APP 和小程序上已经可以体验(关闭深度思考)。本次更新为小版本更新,并非此前呼声较高的 DeepSeek-R2,但依然有不少亮点,甚至在某些能力已经与 Claude 3.7 Sonnet 相当接近。从网友反馈的实测效果来看,V3-0324 有这些提升:
-
编码能力已经接近 Claude3.7 了,比之前的老版本 v3 能力要强;
-
提升幅度大约与 Sonnet 3.5 到 Sonnet 3.6 一样,甚至还要大一点;
-
与 R1 相比,V3-0324 在生成前端代码方面有了明显改进;
-
数学能力也有提升,能像推理模型一样能够解题。
DeepSeek-V3-0324 依然保持着开源的优良传统,而且是 MIT 开源许可,意味着比上一版更加开放了。(@ APPSO)
2、32B 本地部署,阿里开源最新多模态模型:主打视觉语言,数学推理也很强
就在 DeepSeek-V3 更新的同一夜,阿里通义千问 Qwen 又一次梦幻联动了------发布 Qwen2.5-VL-32B-Instruct 。
此前开源家族视觉语言模型 Qwen2.5-VL 包括 3B、7B 和 72B 三种尺寸。这一次的 32B 版本进一步兼顾尺寸和性能,可在本地运行。
同时经过强化学习优化,在三个方面改进显著:
-
回答更符合人类偏好;
-
拥有更强的数学推理能力;
-
在图像解析、内容识别以及视觉逻辑推导等任务中,表现出更强的准确性和细粒度分析能力。
对比近期开源的 Mistral-Small-3.1-24B 、Gemma-3-27B-IT 等, Qwen2.5-VL-32B 在纯文本能力上也达到了同规模的 SOTA 表现。在多个基准上,Qwen2.5-VL-32B 甚至超过了 72B。
(@量子位)
3、杭州六小龙最新开源「空间理解模型」
「杭州六小龙」之一「群核科技」在 GTC 2025 大会开源了空间理解模型:SpatialLM。
SpatialLM 是一款专门为三维空间理解设计的大语言模型,通过三维点云数据,生成结构化的三维场景理解输出,包括墙壁、门、窗等建筑元素,以及带有语义类别的定向物体边界框。与传统需要专用设备进行数据采集的方法不同,SpatialLM 能够处理来自多种来源的点云数据,如:单目视频序列、RGBD 图像和 LiDAR 传感器等。
简单地说,SpatialLM 的本质就像是一台「空间翻译机」,通过视频理解物理世界的几何关系,再将其转化为机器能读懂的指令。
其工作原理如下:给定一个 RGB 视频,首先使用 MASt3R-SLAM 进行三维点云重建,然后利用 SpatialLM 将这些密集点云转化为结构化表示。点云编码器将点云信息编码为紧凑的特征表示,随后由大语言模型(LLM)生成描述场景的场景代码(scene codes),这些场景代码可以被进一步转换为三维结构布局。
SpatialLM 当前提供了 1B 和 0.5B 两种模型版本,相比于现在的 LLM 而言可以说是很小了。SpatialLM 采用多模态结构,有效地将非结构化的三维几何数据与结构化的三维表示相结合,提供高层次的语义理解。这一特性增强了其在具身机器人、自主导航等复杂三维场景分析任务中的空间推理能力。(@语音之家)
4、Agora 对话式 AI 插件登陆 Dify 应用市场,快速打造语音智能体
Agora 的对话式 AI 插件现已正式登陆 Dify 应用市场,为开发者带来构建实时、互动语音 AI 体验的助力。通过集成这一插件,开发者可以利用各种领先的 LLM,轻松构建语音 AI 智能体,并享受行业领先的 STT 和灵活的 TTS 服务选择。
该插件由 Agora 超低延迟的「软件定义实时网」 (SD-RTN) 提供支持,确保即使在复杂网络环境下,也能提供快速响应和全球范围内的可靠性。
凭借其快速、低代码的集成特性,开发者可以直接在 Dify 中部署语音智能体,例如虚拟助手或客户支持机器人。(@ Dify Blog)
02 有亮点的产品
1、DomoAI 宣布新功能,将图像与语音文件结合,快速生成具有自然语言表达能力的虚拟人物
AI 创意平台 DomoAI 近日宣布推出新功能,允许用户将任意图像与语音文件结合,快速生成具有自然语言表达能力的虚拟人物。
生成的数字人不仅能根据上传的语音内容同步口型,还支持多种时长选择,从 5 秒短视频到最长 60 秒的完整片段,满足不同场景需求。用户反馈显示,该功能的生成速度远超同类产品,且对中文的支持表现出色。(@ X@DomoAI_、AIbase)
2、Quest v76 PTC 可让用户将 Meta Avatar 用作虚拟网络摄像头画面
近日消息,Meta 在其 VR/MR 操作系统 Horizon OS v76 公共测试版(PTC)中推出了新功能,允许用户在视频通话应用中使用 Meta Avatar 虚拟化身替代真实摄像头画面。这一功能通过 Android API 调用前置摄像头数据,生成包含头部转动、手部动作及基于麦克风音频估算嘴唇动作的虚拟视频流。
(图片来源:uploadvr)
该功能能够实时捕捉用户的头部转动和手部动作,并将其映射到 Meta Avatar 上,使得虚拟化身的动作更加自然和流畅。基于麦克风音频,该功能能够智能模拟 Meta Avatar 的唇部动作,使得虚拟化身在视频通话中能够更准确地传达用户的语音信息。
此外,系统设置新增了「自拍相机」选项卡,支持背景图像(待实装)和虚拟视野(FOV)调节,用户可以根据自己的喜好和需求打造专属的会议空间。
在 Quest 3 设备测试中,虚拟化身可适配侧载的 Android 应用(如手机版 WhatsApp),但暂不支持网页浏览器。这意味着用户可以在多种应用中使用 Meta Avatar 进行视频通话。
需要注意的是,由于技术限制和兼容性问题,目前并非所有应用都支持这一功能。用户在使用时需要确认应用是否支持 Meta Avatar 作为虚拟网络摄像头画面。(@ uploadvr)
3、ISSEN:个性化 AI 语言导师,可语音交互
ISSEN 是一款实时语音交互的语言导师,它会根据用户的特定兴趣、学习方式和目标进行个性化调整。
功能亮点:
-
对话式学习体验: 与 AI 导师进行自然流畅的对话,有效提升口语流利度。我们的导师精通双语,能够理解并使用用户在本应用中学习的语言以及用户的母语。
-
灵活的学习结构: 学习内容丰富多样,从专注深入的语法课程到轻松愉快的日常闲聊,导师会逐渐适应用户的兴趣和学习风格,量身定制学习内容。
-
个性化按需学习: 无论用户是在旅途中还是在家中,都可以随时随地学习。我们的导师全天候待命,根据用户的需求和日程安排,为用户定制专属课程。(@ Product Hunt)
4、Spika.ai:将用户的声音和想法转化为播客
使用 Spika 创建播客,将简单的提示转换为任何语言的引人入胜的播客,并保留用户的声音进行多语言翻译。用户的声音,用户的故事,全球传播。
功能亮点:
-
多语言支持;
-
自由选择播客话题;
-
一分钟即可生成用户专属播客。(@ Product Hunt)
03 有态度的观点
1、图灵奖得主杨立昆:LLM 无法产生真正的创新
在最近一期的 Big Technology Podcast 中,Meta 首席 AI 科学家、图灵奖得主 Yann LeCun 分享了他对当前 AI 技术限制及未来发展的深刻见解。LeCun 明确指出,尽管当前的大型语言模型(LLMs)能够完成令人印象深刻的任务,但它们本质上仍是基于文本统计特征的复述和检索工具,无法产生真正的创新。他认为 AI 发展正面临收益递减的瓶颈,并表示即使通过合成数据或雇佣专家生成更多内容,系统在掌握基本逻辑方面仍然存在困难,投入与回报比例日益失衡。
对于当前 AI 行业的巨额投资,LeCun 认为这些资金主要用于建设未来几年所需的推理基础设施,而非仅为当下服务。他预测,虽然新范式不会在未来三年内完全成熟,但在 3-5 年内可能实现突破,与当前投资趋势基本一致。谈及开源与专有模型的竞争,LeCun 表示开源正在展现出更快的进展速度。他以 DeepSeek 为例,指出一个自由的小团队能提出新颖想法,甚至重新定义方法,这表明开源模式在推动创新方面具有独特优势。(@ APPSO)
更多 Voice Agent 学习笔记:
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻