VibeVoice-ASR：突破60分钟长音频处理瓶颈，语音识别进入端到端时代

近日，微软宣布开源其新一代语音识别模型VibeVoice-ASR，该模型突破传统语音转文本技术的限制，实现了长音频单次处理 的革命性进步，支持单次处理长达60分钟的连续音频输入。

这一创新解决了传统语音识别系统在处理长音频时需切分成短片段而导致的上下文丢失与说话人追踪混乱的痛点。

核心技术创新

VibeVoice-ASR的核心突破在于其**统一建模框架。**与传统流水线式语音识别系统不同，它将语音识别、说话人分离和时间戳标记三重任务整合在一个端到端的学习框架内。

该模型采用**双令牌器架构，**通过声学令牌器和语义令牌器的协同工作，实现对音频数据的高效压缩表示。这种设计确保了语义连贯性和说话人追踪的一致性。

基于大语言模型的64K token上下文窗口，VibeVoice-ASR能够一次性处理最长60分钟的连续音频输入，保持了全局上下文的完整性。

在多项基准测试中，VibeVoice-ASR在说话人分离错误率（DER）和时间约束词错误率（tcpWER）等关键指标上均表现出色。

模型参数规模达**90亿，**支持英语和中文，并在多语言场景下表现优异。自定义热词功能允许用户注入专业术语或特定名称，显著提升了专业领域内容的识别准确率。

企业会议记录是该模型的典型应用场景。它能自动生成包含各发言人讨论内容的详细会议纪要，避免传统分段处理方式带来的上下文丢失问题。

在教育领域，VibeVoice-ASR能为在线课程和学术讲座提供精确的字幕和讲义生成，大幅提升内容制作效率。对媒体内容创作者而言，该模型能帮助播客和视频创作者快速生成文字稿，提高内容可检索性。

跨境交流场景同样受益，模型支持50+语言自动识别和代码切换，完美适应国际化环境。

VibeVoice-ASR采用**MIT开源协议，**已在Hugging Face和GitHub上发布模型权重和完整代码。

官方提供标准化部署方案，支持NVIDIA PyTorch容器环境，并集成Flash-Attention优化长序列推理效率。针对生产环境需求，VibeVoice-ASR支持vLLM部署，可实现高并发API服务。

同时，项目提供LoRA微调脚本，便于用户进行领域特定适配，进一步降低了技术使用门槛。

VibeVoice-ASR的创新不仅体现在技术指标上，更重要的是它**重新定义了语音识别的应用边界。**长音频单次处理能力使得以往因技术限制而无法实现的应用场景成为可能。

在人工智能加速发展的今天，开源此举将进一步推动语音识别技术在各个行业的普及和深化。随着更多开发者参与到生态建设中，可以预期未来会有更多针对特定场景的优化版本出现。

领驭科技深耕AI领域创新与实践，持续追踪微软&OpenAI、GPT、DeepSeek等主流大语言模型的前沿动态，聚焦技术迭代细节，拆解应用落地逻辑，全方位梳理大语言模型发展脉络。如果你也关注AI发展，欢迎随时交流探讨，持续关注我们获取更多行业干货。