Nexa AI发布OmniAudio-2.6B：一款快速的音频语言模型，专为边缘部署设计

音频语言模型（Audio Language Models，简称ALMs）在众多领域扮演着核心角色，涵盖从即时转录与翻译到语音控制界面和辅助技术等应用。然而，现有的解决方案常遭遇如高延迟、计算资源消耗巨大以及对云基础设施的依赖等挑战。这些限制在边缘计算部署中尤为突出，因为在那里，低功耗、低延迟和本地化处理显得尤为重要。在资源受限或对隐私保护有严格要求的环境中，这些挑战使得大规模、集中式的模型变得不太适用。因此，克服这些限制对于充分发挥ALMs在边缘场景中的潜力至关重要。

Nexa AI宣布推出了OmniAudio-2.6B，这是一款专为边缘部署设计的音频语言模型。与传统的将自动语音识别（Automatic Speech Recognition，简称ASR）和语言模型分开处理的架构不同，OmniAudio-2.6B将Gemma-2-2b、Whisper Turbo和一个定制的投影仪集成在一个统一的框架之中。这种设计消除了将多个组件串联时的效率低下和延迟问题，特别适合计算资源受限的设备。

OmniAudio-2.6B旨在为边缘应用提供一种既实用又高效的解决方案。Nexa AI通过专注于边缘环境的特定需求，提供了一个在性能和资源限制之间取得平衡的模型，展现了其致力于推动人工智能普及化的决心。

上图为其模型架构，OmniAudio-2.6B的架构整合了三个组件：Gemma-2-2b、Whisper Turbo以及一个定制的投影模块。设计时利用了语言模型嵌入空间的稀疏性。投影模块将Whisper的音频标记映射成与Gemma文本嵌入维度对齐的序列，这才使得有效的音频-文本融合成为可能，同时保持了语言模型的原始性能。

技术细节和优势

OmniAudio-2.6B的架构经过优化，以提高速度和效率。Gemma-2-2b（一个精炼的大型语言模型）和Whisper Turbo（一个强大的ASR系统）的集成，确保了一个无缝且高效的音频处理流程。定制的投影仪连接这些组件，减少了延迟并提高了操作效率。关键性能亮点包括：

处理速度： 在2024款Mac Mini M4 Pro上，OmniAudio-2.6B在使用Nexa SDK的情况下，以FP16 GGUF格式达到每秒35.23个token的处理速度，以Q4_K_M GGUF格式达到每秒66个token的处理速度。相比之下，Qwen2-Audio-7B这一著名替代品在类似硬件上仅能处理每秒6.38个token。这一差异代表了速度上的显著提升。
资源效率： 该模型的紧凑设计最小化了对云资源的依赖，使其成为可穿戴设备、汽车系统和物联网设备等应用的理想选择，这些设备在电力和带宽方面有限。
准确性和灵活性： 尽管OmniAudio-2.6B专注于速度和效率，但它提供了高准确性，使其能够灵活应对转录、翻译和摘要等任务。

这些进步使得OmniAudio-2.6B成为开发者和企业寻求响应迅速、注重隐私的边缘音频处理解决方案的实用选择。

性能洞察

基准测试强调了OmniAudio-2.6B的卓越性能。在2024款Mac Mini M4 Pro上，该模型每秒处理多达66个token，显著超过了Qwen2-Audio-7B的每秒6.38个token。这一速度提升扩展了实时音频应用的可能性。

例如，OmniAudio-2.6B可以通过实现更快的、无需依赖云的设备上响应来增强虚拟助手。在医疗保健等实时转录和翻译至关重要的行业中，该模型的速度和准确性可以提高结果和效率。其边缘友好的设计进一步增强了其在需要本地处理的场景中的吸引力。

其已经在huggingface上发布。 https://huggingface.co/NexaAIDev/OmniAudio-2.6B

结论

OmniAudio-2.6B代表了音频语言建模的一个重要进步，解决了延迟、资源消耗和云依赖等关键挑战。通过将先进组件集成到一个统一框架中，Nexa AI开发了一个在速度、效率和准确性方面为边缘环境平衡的模型。

性能指标显示，与现有解决方案相比，OmniAudio-2.6B提供了高达10.3倍的提升，为各种边缘应用提供了一个强大、可扩展的选项。这一模型反映了对实用、本地化AI解决方案的日益重视，为满足现代应用需求的音频语言处理的进步铺平了道路。