阿里通义实验室突破空间音频新纪元!OmniAudio让360°全景视频“声”临其境

在虚拟现实和沉浸式娱乐快速发展的今天,视觉体验已经远远不够,声音的沉浸感 成为打动用户的关键。然而,传统的视频配音技术往往停留在"平面"的音频层面,难以提供真正的空间感。阿里巴巴通义实验室(Qwen Lab)旗下的语音团队最近取得了一个重大突破 ------ OmniAudio 技术 ,能够直接从360°视频中生成空间音频(FOA),真正实现了"所见即所听",大幅提升虚拟现实中的沉浸感。


为什么空间音频如此重要?

想象一下你戴着VR头显,站在一个繁忙的城市广场。如果你只听到"立体声",你可能只能感受到声音的左右方向;但如果你听到一个小贩从你后方推车经过、前方的街头艺人正在唱歌、右上方的钟楼敲响,你的身体会自然转向声音来源------这正是**空间音频(Spatial Audio)**带来的沉浸感。

**FOA(First-order Ambisonics)**是一种主流的空间音频格式,它用4个声道(W, X, Y, Z)来描述声音的位置和方向。简单来说,如果你把听觉比作摄影,这种格式就像是"全景相机",可以捕捉整个空间的声音场景,而不仅仅是某一个角度。


现有技术的痛点:角度太"死板"

虽然空间音频的技术已存在一段时间,但目前很多视频生成音频的方法都存在明显的缺陷:

  • 只处理固定视角的视频,无法真正体现"环绕"音效;

  • 生成的是"普通"音频,缺乏声音方向感;

  • 忽视了360°视频本身蕴含的丰富视觉线索。

而随着360°相机的普及和VR内容的兴起,观众越来越期待音画一致的沉浸体验------而这正是OmniAudio所要解决的难题。


Qwen Lab 的解法:360V2SA 任务 + Sphere360 数据集

为了解决这个痛点,研究团队提出了一个全新的任务定义:360V2SA(360-degree Video to Spatial Audio) 。意思就是:让360°视频配上真正匹配其空间结构的音频

但这里面有一个大难题------数据匮乏。

训练AI模型需要大量的视频+空间音频配对数据,而现实中360°视频和FOA音频的组合极其稀缺 。为此,团队构建了一个超大规模数据集 Sphere360

  • 包含 103,000+ 真实视频片段

  • 覆盖 288类音频事件(如掌声、引擎声、鸟叫等);

  • 总时长达到 288小时

  • 所有数据都经过严格清洗和对齐,确保"看得见"的画面与"听得见"的声音严格对应。


OmniAudio 是如何学习"空间感"的?

OmniAudio 的训练分为两个阶段,可以类比为"先学基础,再练精细":

✅ 阶段一:自学成才(Self-Supervised)

团队利用海量的普通立体声数据,先"伪造"出假FOA(称为"伪FOA"),让模型通过一种叫"流匹配(flow-matching)"的方法,自己摸索声音的时间结构和空间规律。

类比一下:就像你用模糊地图自学城市布局,虽然不精确,但能掌握大致方位和路线感。

为了让模型更强健,团队还故意"打码"音频片段(即随机遮住部分时间段),让模型学会"脑补"缺失的信息。这一步帮助它打下了很好的"声音空间感"基础。

✅ 阶段二:精雕细琢(Supervised Fine-tuning)

接着,团队拿出真实的FOA音频数据,结合视频的"双分支视觉编码器"(可以同时提取场景信息和运动信息),进一步精细训练模型,让它能够根据画面"雕刻"出精准的空间音轨。

最终,OmniAudio 能够根据画面中的视觉线索,比如"汽车从左边开过来",输出与之完美匹配的空间音频。


效果如何?超越所有对手!

在测试阶段,研究团队使用了两个测试集:Sphere360-BenchYT360-Test,并使用了客观指标(如 FD、KL、ΔAngular)和主观评测(人类听感打分)来对比性能。

结果非常惊艳:

  • OmniAudio 在所有指标上全面超越现有所有方法

  • 人类主观评分中,OmniAudio 的空间感、清晰度、画面与声音的同步度均高于最佳对比模型

  • 消融实验也验证了:预训练策略、双分支视觉建模、模型规模等设计对提升性能缺一不可。


虚拟世界的声音革命

OmniAudio 的出现,意味着我们离真正"沉浸式音画合一"的虚拟现实更近了一步。未来,无论是VR游戏、线上展览、虚拟旅游,还是影视制作,都将有机会用更真实、更细腻的声音打动用户。

空间音频,不再是"高端专属",而是即将走入大众视野的"听觉革命"。

相关推荐
martian6654 分钟前
奇异值分解(SVD):线性代数在AI大模型中的核心工具
人工智能·线性代数
别惹CC12 分钟前
AI赋能开源:如何借助MCP快速解锁开源项目并提交你的首个PR
人工智能·开源
kooboo china.22 分钟前
Tailwind CSS 实战:基于 Kooboo 构建 AI 对话框页面(五):语音合成输出与交互增强
css·人工智能·交互
网易智企24 分钟前
专场回顾 | 重新定义交互,智能硬件的未来设计
人工智能·交互·智能硬件
我想睡觉26132 分钟前
Python打卡训练营Day40
开发语言·人工智能·python·深度学习·机器学习
哲讯智能科技38 分钟前
SAP Business One:无锡哲讯科技助力中小企业数字化转型的智慧之选
大数据·人工智能
林林宋1 小时前
DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation
人工智能·深度学习·transformer
摘星编程1 小时前
华为云Flexus+DeepSeek征文 | 基于Dify和DeepSeek-R1开发企业级AI Agent全流程指南
人工智能·华为云·deepseek·华为云flexus·dify-llm
lucky_lyovo1 小时前
机器学习-线性回归基础
人工智能·机器学习·线性回归
一洽客服系统2 小时前
技术为器,服务为本:AI时代的客服价值重构
人工智能