VoxMind: An End-to-End Agentic Spoken Dialogue System

宣传一下我们的最新工作 VoxMind(端到端语音大模型领域首个系统性智能体框架),已被 ACL 2026 Main Conference 录用,欢迎大家关注~

近期的端到端语音对话模型实现了自然的交互体验。然而,随着用户需求日益复杂,仅依靠基础对话能力的模型往往显得力不从心。因此,赋予模型智能体能力势在必行。借助外部工具,模型能够突破自身的知识局限,进而更好地解决实际问题。不过,现有研究大多聚焦于核心的感知与生成能力,对这类工具增强扩展的探索却相对有限。为了填补这一空白,我们提出了 VoxMind,一个旨在为端到端语音对话模型赋予全面智能体能力的集成框架。基于我们精心构建的 470 小时 AgentChat 数据集,我们引入了"先思后言"机制,使模型能够将结构化推理内化为任务规划与回复生成的关键前提。此外,为缓解大规模引入工具所带来的延迟瓶颈,我们提出了一种多智能体动态工具管理架构。该系统将检索任务异步交由与主模型推理轨迹保持一致的辅助智能体来处理,从而有效实现了推理延迟与工具集规模的解耦。实验结果表明,VoxMind 在智能体性能上实现了显著提升:与强基线模型相比,其任务完成率从 34.88% 大幅增至 74.57%;在保持通用对话质量的同时,其在语音智能体任务上的表现超越了 Gemini-2.5-Pro。

论文:https://arxiv.org/abs/2604.15710

代码和数据:https://github.com/MM-Speech/VoxMind

欢迎大家Upvote:https://huggingface.co/papers/2604.15710

相关推荐
在水一缸8 小时前
GLM 5.2 发布:当长上下文与智能体走向深度融合
人工智能·大模型·智能体·智谱ai·长上下文·glm-5.2
北邮刘老师11 小时前
国标配套开源实现再升级!AIP智能体互联开源项目v2.1.0正式发布
人工智能·开源·大模型·智能体·智能体互联网
泛联新安16 小时前
Omni Security 如何让安全检测速度跟上 AI 编码速度
ai·漏洞挖掘·智能体
星释18 小时前
鸿蒙智能体开发实战:4.A2A 模式创建智能体
ai·harmonyos·鸿蒙·智能体
星释19 小时前
鸿蒙智能体开发实战:5.搭建A2A API服务
华为·ai·harmonyos·智能体
新知图书1 天前
RAG之生成技术
人工智能·agent·ai agent·智能体·langgraph
新知图书1 天前
智能体基础架构
人工智能·agent·ai agent·智能体·langgraph
北邮刘老师1 天前
“移动梦网”走了,“移动智网”会来吗?
人工智能·大模型·智能体·智能体互联网
Bruce_Liuxiaowei1 天前
2026年7月第1周网络安全形势周报
人工智能·安全·web安全·ai·智能体
想你依然心痛2 天前
HarmonyOS 6(API 23)实战:基于HMAF的「量子编排」——PC端AI智能体量子计算模拟与量子-经典混合智能编排平台
人工智能·交互·实时音视频·智能体