VoxMind: An End-to-End Agentic Spoken Dialogue System

宣传一下我们的最新工作 VoxMind(端到端语音大模型领域首个系统性智能体框架),已被 ACL 2026 Main Conference 录用,欢迎大家关注~

近期的端到端语音对话模型实现了自然的交互体验。然而,随着用户需求日益复杂,仅依靠基础对话能力的模型往往显得力不从心。因此,赋予模型智能体能力势在必行。借助外部工具,模型能够突破自身的知识局限,进而更好地解决实际问题。不过,现有研究大多聚焦于核心的感知与生成能力,对这类工具增强扩展的探索却相对有限。为了填补这一空白,我们提出了 VoxMind,一个旨在为端到端语音对话模型赋予全面智能体能力的集成框架。基于我们精心构建的 470 小时 AgentChat 数据集,我们引入了"先思后言"机制,使模型能够将结构化推理内化为任务规划与回复生成的关键前提。此外,为缓解大规模引入工具所带来的延迟瓶颈,我们提出了一种多智能体动态工具管理架构。该系统将检索任务异步交由与主模型推理轨迹保持一致的辅助智能体来处理,从而有效实现了推理延迟与工具集规模的解耦。实验结果表明,VoxMind 在智能体性能上实现了显著提升:与强基线模型相比,其任务完成率从 34.88% 大幅增至 74.57%;在保持通用对话质量的同时,其在语音智能体任务上的表现超越了 Gemini-2.5-Pro。

论文:https://arxiv.org/abs/2604.15710

代码和数据:https://github.com/MM-Speech/VoxMind

欢迎大家Upvote:https://huggingface.co/papers/2604.15710

相关推荐
-山中问答-10 小时前
【AI智能体工程化实战02】Harness工程化方法——像造汽车一样造Agent
人工智能·智能体·harness工程
Tbisnic11 小时前
AI大模型学习第十二天:Coze工作流与智能体开发
人工智能·python·ai·大模型·智能体·coze
-山中问答-12 小时前
【AI智能体工程化实战03】智能体工程化开发环境
人工智能·开发环境·智能体·trae·claude code
-山中问答-13 小时前
【AI智能体工程化实战04】将模糊需求转化为结构化的评测规范文档
人工智能·智能体·评测规范
MicrosoftReactor14 小时前
技术速递|提升 GitHub Agentic Workflows 的 Token 使用效率
ai·github·copilot·智能体
Bruce_Liuxiaowei15 小时前
2026年6月第2周网络安全形势周报
人工智能·安全·web安全·ai·大模型·智能体
周航宇JoeZhou1 天前
JB3-9-SpringAI(二)
java·ai·agent·多智能体·调度·智能体·观察
try2find1 天前
agent环境安装spacy
python·智能体
大数据AI人工智能培训专家培训讲师叶梓1 天前
人工智能培训讲师叶梓OpenClaw 智能体技术与科研自动化实战培训提纲
人工智能·自动化·智能体·人工智能讲师·大模型讲师·openclaw·龙虾
大数据在线2 天前
布局Agentic AI,亚马逊云科技组合拳再升级
人工智能·openai·亚马逊云科技·智能体·agentic ai