阿里通义实验室突破空间音频新纪元！OmniAudio让360°全景视频“声”临其境

在虚拟现实和沉浸式娱乐快速发展的今天，视觉体验已经远远不够，声音的沉浸感 成为打动用户的关键。然而，传统的视频配音技术往往停留在"平面"的音频层面，难以提供真正的空间感。阿里巴巴通义实验室（Qwen Lab）旗下的语音团队最近取得了一个重大突破 ------ OmniAudio 技术 ，能够直接从360°视频中生成空间音频（FOA），真正实现了"所见即所听"，大幅提升虚拟现实中的沉浸感。

为什么空间音频如此重要？

想象一下你戴着VR头显，站在一个繁忙的城市广场。如果你只听到"立体声"，你可能只能感受到声音的左右方向；但如果你听到一个小贩从你后方推车经过、前方的街头艺人正在唱歌、右上方的钟楼敲响，你的身体会自然转向声音来源------这正是**空间音频（Spatial Audio）**带来的沉浸感。

**FOA（First-order Ambisonics）**是一种主流的空间音频格式，它用4个声道（W, X, Y, Z）来描述声音的位置和方向。简单来说，如果你把听觉比作摄影，这种格式就像是"全景相机"，可以捕捉整个空间的声音场景，而不仅仅是某一个角度。

现有技术的痛点：角度太"死板"

虽然空间音频的技术已存在一段时间，但目前很多视频生成音频的方法都存在明显的缺陷：

只处理固定视角的视频，无法真正体现"环绕"音效；
生成的是"普通"音频，缺乏声音方向感；
忽视了360°视频本身蕴含的丰富视觉线索。

而随着360°相机的普及和VR内容的兴起，观众越来越期待音画一致的沉浸体验------而这正是OmniAudio所要解决的难题。

Qwen Lab 的解法：360V2SA 任务 + Sphere360 数据集

为了解决这个痛点，研究团队提出了一个全新的任务定义：360V2SA（360-degree Video to Spatial Audio） 。意思就是：让360°视频配上真正匹配其空间结构的音频。

但这里面有一个大难题------数据匮乏。

训练AI模型需要大量的视频+空间音频配对数据，而现实中360°视频和FOA音频的组合极其稀缺 。为此，团队构建了一个超大规模数据集 Sphere360：

包含 103,000+ 真实视频片段；
覆盖 288类音频事件（如掌声、引擎声、鸟叫等）；
总时长达到 288小时；
所有数据都经过严格清洗和对齐，确保"看得见"的画面与"听得见"的声音严格对应。

OmniAudio 是如何学习"空间感"的？

OmniAudio 的训练分为两个阶段，可以类比为"先学基础，再练精细"：

✅ 阶段一：自学成才（Self-Supervised）

团队利用海量的普通立体声数据，先"伪造"出假FOA（称为"伪FOA"），让模型通过一种叫"流匹配（flow-matching）"的方法，自己摸索声音的时间结构和空间规律。

类比一下：就像你用模糊地图自学城市布局，虽然不精确，但能掌握大致方位和路线感。

为了让模型更强健，团队还故意"打码"音频片段（即随机遮住部分时间段），让模型学会"脑补"缺失的信息。这一步帮助它打下了很好的"声音空间感"基础。

✅ 阶段二：精雕细琢（Supervised Fine-tuning）

接着，团队拿出真实的FOA音频数据，结合视频的"双分支视觉编码器"（可以同时提取场景信息和运动信息），进一步精细训练模型，让它能够根据画面"雕刻"出精准的空间音轨。

最终，OmniAudio 能够根据画面中的视觉线索，比如"汽车从左边开过来"，输出与之完美匹配的空间音频。

效果如何？超越所有对手！

在测试阶段，研究团队使用了两个测试集：Sphere360-Bench 和 YT360-Test，并使用了客观指标（如 FD、KL、ΔAngular）和主观评测（人类听感打分）来对比性能。

结果非常惊艳：

OmniAudio 在所有指标上全面超越现有所有方法；
人类主观评分中，OmniAudio 的空间感、清晰度、画面与声音的同步度均高于最佳对比模型；
消融实验也验证了：预训练策略、双分支视觉建模、模型规模等设计对提升性能缺一不可。

虚拟世界的声音革命

OmniAudio 的出现，意味着我们离真正"沉浸式音画合一"的虚拟现实更近了一步。未来，无论是VR游戏、线上展览、虚拟旅游，还是影视制作，都将有机会用更真实、更细腻的声音打动用户。

空间音频，不再是"高端专属"，而是即将走入大众视野的"听觉革命"。