VoxMind: An End-to-End Agentic Spoken Dialogue System

宣传一下我们的最新工作 VoxMind(端到端语音大模型领域首个系统性智能体框架),已被 ACL 2026 Main Conference 录用,欢迎大家关注~

近期的端到端语音对话模型实现了自然的交互体验。然而,随着用户需求日益复杂,仅依靠基础对话能力的模型往往显得力不从心。因此,赋予模型智能体能力势在必行。借助外部工具,模型能够突破自身的知识局限,进而更好地解决实际问题。不过,现有研究大多聚焦于核心的感知与生成能力,对这类工具增强扩展的探索却相对有限。为了填补这一空白,我们提出了 VoxMind,一个旨在为端到端语音对话模型赋予全面智能体能力的集成框架。基于我们精心构建的 470 小时 AgentChat 数据集,我们引入了"先思后言"机制,使模型能够将结构化推理内化为任务规划与回复生成的关键前提。此外,为缓解大规模引入工具所带来的延迟瓶颈,我们提出了一种多智能体动态工具管理架构。该系统将检索任务异步交由与主模型推理轨迹保持一致的辅助智能体来处理,从而有效实现了推理延迟与工具集规模的解耦。实验结果表明,VoxMind 在智能体性能上实现了显著提升:与强基线模型相比,其任务完成率从 34.88% 大幅增至 74.57%;在保持通用对话质量的同时,其在语音智能体任务上的表现超越了 Gemini-2.5-Pro。

论文:https://arxiv.org/abs/2604.15710

代码和数据:https://github.com/MM-Speech/VoxMind

欢迎大家Upvote:https://huggingface.co/papers/2604.15710

相关推荐
想你依然心痛10 小时前
HarmonyOS 6(API 23)实战:基于悬浮导航、沉浸光感与HMAF的“灵犀智脑“——PC端AI智能体工作流编排平台
人工智能·华为·harmonyos·智能体
闲人编程11 小时前
Agent的安全边界:如何防止AI失控(对齐问题)
网络·python·ai·agent·权限·智能体·cai
Xxtaoaooo1 天前
用 JiuwenSwarm 搭建论文写作 Agent 团队:文献检索、大纲生成、语法润色与引用格式避坑
人工智能·论文写作·智能体·jiuwenswarm·agent 团队
金智维科技官方1 天前
金智维入选中国信通院《高质量数字化转型技术解决方案集(2025年)》
人工智能·ai·自动化·数字化·智能体
新知图书1 天前
带搜索工具的对话 Agent示例与解析
人工智能·langchain·agent·智能体·langgraph
龙侠九重天1 天前
JetBrains AI 助手集成 Rider、IDEA 等 IDE 的 AI 辅助功能
ide·人工智能·大模型·intellij-idea·agent·jetbrains·智能体
SZLSDH1 天前
数字孪生IOC的“双引擎”架构:当业务编排遇上渲染管线,如何实现场景适配?
数据库·ai·架构·数字孪生·数据可视化·智能体
我叫张小白。1 天前
劳动力招聘管理系统:全栈实战(Vue3+FastAPI+WebSocket+Dify)
websocket·vue·毕业设计·状态模式·fastapi·dify·智能体
梦想不只是梦与想2 天前
rag和agent的区别
人工智能·python·知识库·rag·智能体·agent‌
余衫马2 天前
Microsoft Semantic Kernel 入门指南
人工智能·microsoft·.net·agent·智能体