宣传一下我们的最新工作 VoxMind(端到端语音大模型领域首个系统性智能体框架),已被 ACL 2026 Main Conference 录用,欢迎大家关注~
近期的端到端语音对话模型实现了自然的交互体验。然而,随着用户需求日益复杂,仅依靠基础对话能力的模型往往显得力不从心。因此,赋予模型智能体能力势在必行。借助外部工具,模型能够突破自身的知识局限,进而更好地解决实际问题。不过,现有研究大多聚焦于核心的感知与生成能力,对这类工具增强扩展的探索却相对有限。为了填补这一空白,我们提出了 VoxMind,一个旨在为端到端语音对话模型赋予全面智能体能力的集成框架。基于我们精心构建的 470 小时 AgentChat 数据集,我们引入了"先思后言"机制,使模型能够将结构化推理内化为任务规划与回复生成的关键前提。此外,为缓解大规模引入工具所带来的延迟瓶颈,我们提出了一种多智能体动态工具管理架构。该系统将检索任务异步交由与主模型推理轨迹保持一致的辅助智能体来处理,从而有效实现了推理延迟与工具集规模的解耦。实验结果表明,VoxMind 在智能体性能上实现了显著提升:与强基线模型相比,其任务完成率从 34.88% 大幅增至 74.57%;在保持通用对话质量的同时,其在语音智能体任务上的表现超越了 Gemini-2.5-Pro。
论文:https://arxiv.org/abs/2604.15710
代码和数据:https://github.com/MM-Speech/VoxMind
欢迎大家Upvote:https://huggingface.co/papers/2604.15710