VoxMind: An End-to-End Agentic Spoken Dialogue System

宣传一下我们的最新工作 VoxMind(端到端语音大模型领域首个系统性智能体框架),已被 ACL 2026 Main Conference 录用,欢迎大家关注~

近期的端到端语音对话模型实现了自然的交互体验。然而,随着用户需求日益复杂,仅依靠基础对话能力的模型往往显得力不从心。因此,赋予模型智能体能力势在必行。借助外部工具,模型能够突破自身的知识局限,进而更好地解决实际问题。不过,现有研究大多聚焦于核心的感知与生成能力,对这类工具增强扩展的探索却相对有限。为了填补这一空白,我们提出了 VoxMind,一个旨在为端到端语音对话模型赋予全面智能体能力的集成框架。基于我们精心构建的 470 小时 AgentChat 数据集,我们引入了"先思后言"机制,使模型能够将结构化推理内化为任务规划与回复生成的关键前提。此外,为缓解大规模引入工具所带来的延迟瓶颈,我们提出了一种多智能体动态工具管理架构。该系统将检索任务异步交由与主模型推理轨迹保持一致的辅助智能体来处理,从而有效实现了推理延迟与工具集规模的解耦。实验结果表明,VoxMind 在智能体性能上实现了显著提升:与强基线模型相比,其任务完成率从 34.88% 大幅增至 74.57%;在保持通用对话质量的同时,其在语音智能体任务上的表现超越了 Gemini-2.5-Pro。

论文:https://arxiv.org/abs/2604.15710

代码和数据:https://github.com/MM-Speech/VoxMind

欢迎大家Upvote:https://huggingface.co/papers/2604.15710

相关推荐
龙侠九重天2 小时前
AI Agent 是什么?从概念到第一个智能体
人工智能·agent·智能体
新知图书3 小时前
基于ReAct模式的智能体系统示例
人工智能·agent·智能体
小程故事多_801 天前
AI编码效率革命,Agent Orchestrator如何让多智能体并行开发成为现实
人工智能·架构·智能体
小程故事多_801 天前
Claude Code 全流程梳理,从需求输入到工具执行的完整逻辑
人工智能·设计模式·智能体·claude code·harness
knight_9___1 天前
RAG面试篇11
java·面试·职场和发展·agent·rag·智能体
easyllm1 天前
GPT-5.5 全系上架 NoneLinear
gpt·openai·ai编程·智能体·大模型api·新模型上架·gpt5.5
小程故事多_802 天前
从Claude Code源码中,拆解13个可直接复用的Agentic Harness设计模式(生产级实战解析)
人工智能·设计模式·智能体·claude code·harness
easyllm2 天前
DeepSeek-V4 上架 NoneLinear
智能体·大模型api·deepseek v4·开源旗舰·1m上下文·dsa稀疏注意力
阿瑞说项目管理3 天前
AI Agent 与普通 AI 助手的区别是什么?
大数据·人工智能·agent·智能体·企业级ai