51c视觉~3D~合集7

我自己的原文哦~ https://blog.51cto.com/whaosoft/14235856

#3D Sliding Window Attention, SWA

神经视频压缩新模型：3D-SWA，解码器提速2.8倍，视频压缩迎来无patch新范式

最近，来自德国顶尖学府埃尔朗根-纽伦堡大学（FAU）的研究者，为我们带来了一项视频压缩领域的新突破。他们提出了一种名为 3D滑动窗口注意力（3D Sliding Window Attention, SWA） 的新方法，旨在解决当前基于Transformer的视频压缩技术中存在的效率和性能瓶颈。

这项技术最亮眼的地方在于，它不仅在压缩性能上实现了显著提升，还将解码器的计算复杂度降低了 2.8倍，让高效视频编解码的未来又多了一种可能。

论文标题: Sliding Window Attention for Learned Video Compression
作者: Alexander Kopte, André Kaup
机构: 埃尔朗根-纽伦堡大学
论文地址: https://arxiv.org/abs/2510.03926
会议: Picture Coding Symposium (PCS) 2025

视频压缩的"补丁"之痛

聊到今天的主角SWA之前，我们得先看看它想解决什么问题。

近年来，Transformer在计算机视觉领域大放异彩，视频压缩也不例外。像视频压缩变换器（Video Compression Transformer, VCT）这样的模型，通常会把视频帧分割成一个个"补丁"（patch），然后对这些补丁进行处理。

这种方法虽然直观，但带来了几个棘手的问题：

感受野不规则：每个像素能"看到"的邻近信息范围（即感受野）变得不均匀，尤其是在补丁的边界处，信息获取不完整。
信息流受阻：补丁之间存在硬边界，阻碍了信息的流畅传递。想象一下，一个运动的物体从一个补丁移动到另一个，它的特征信息流就会被人为地切断。
计算冗余：为了缓解上述问题，像VCT这样的模型不得不采用重叠窗口（overlapping windows）来提取时间上的上下文信息，但这又导致了大量的重复计算，费时费力。

简单来说，现有的"打补丁"方法在架构上存在天然缺陷，影响了压缩效率和性能。

无需补丁的优雅：3D滑动窗口注意力（SWA）

为了根治"补丁"带来的顽疾，作者提出了 3D滑动窗口注意力（SWA）。这是一种无补丁（patchless）的局部注意力形式，它的核心思想非常优雅。

SWA将注意力机制类比于一个在时空维度上滑动的3D卷积核。对于当前需要处理的任何一个"超像素"（hyperpixel），注意力计算都发生在一个由它周围时空邻居组成的局部窗口内。

如上图所示，紫色的方块是当前正在处理的超像素，蓝色的方块是它过去的时空邻居，注意力就在这个蓝色区域内计算。这种设计带来了几个关键优势：

统一的感受野：每个超像素的感受野都是均匀的，解决了补丁方法中边界像素的尴尬处境。
统一的时空上下文处理：SWA构建了一个纯解码器（decoder-only）的自回归模型，将空间信息和时间信息放在一个统一的框架下处理，不再需要像VCT那样分离处理，信息交互更充分。
告别冗余计算：由于不再需要重叠窗口，之前那些重复的计算被彻底消除，解码器变得更加高效。

为了保证解码过程的因果关系（即解码当前像素只能用已经解码过的信息），模型采用了逐行扫描的顺序。如下图所示，在解码每一行（绿色箭头）的开头，它会把正上方一行（红色）的对应信息作为引子，确保局部注意力窗口总能获取到最相关的空间上下文。

实验效果：更快、更准

作者将他们提出的SWA模型与VCT基线以及其他主流方法（如DCVC-DC、HM、VTM）进行了全面对比。

率失真性能显著提升

在视频压缩里，我们最关心的就是率失真（Rate-Distortion, RD）性能，即在相同的码率（文件大小）下，谁的画质更好。

上图的RD曲线展示了在UVG数据集上的结果，可以看到SWA（红色虚线）在I帧、P帧和整个GOP（图像组）上都稳定优于VCT基线（蓝色虚线）。

量化来看，BD-rate是衡量压缩性能提升的黄金标准，负值越大代表性能提升越明显。

从表格中可以看到，相较于VCT，SWA在所有测试数据集上都取得了可观的BD-rate节省，最高达到了 18.6%！这是一个非常扎实的性能提升。

解码复杂度大幅降低

性能提升的同时，SWA的效率优势也同样惊人。

根据上表的理论计算复杂度分析，SWA模型的总解码器复杂度（kMACs/px）相比VCT降低了约 2.8倍 （从2320.64降至838.80）。其中，核心的熵模型（Entropy Model）效率提升了近 3.5倍。这完全得益于其无补丁和无重叠窗口的简洁设计。

上下文长度并非越长越好

研究团队还做了一个有趣的消融实验：到底需要多长的历史信息（参考帧）才能达到最佳性能？

结果发现，参考帧并非越多越好。如上图所示，性能会随着参考帧数量的增加先提升后下降。对于不同帧率的数据集，最佳的上下文长度也不同（HEVC B为13帧，UVG为15帧）。这说明，虽然模型能从长程上下文中受益，但过多的、不相关的信息反而会成为"噪音"，干扰模型的预测。

xxx认为，这一发现对于未来设计更智能的上下文管理机制具有重要的启发意义。

总结与展望

总的来说，这篇论文提出的3D-SWA方法，通过一个优雅的"无补丁"滑动窗口设计，成功解决了当前主流Transformer视频压缩模型中的架构缺陷。它不仅在压缩性能上取得了高达18.6%的BD-rate提升，还大幅降低了解码复杂度，为开发下一代高效视频编解码器提供了一个极具潜力的方向。

当然，作者也坦言，当前模型为了公平比较，设计得相对简单，与最顶尖的编解码器（如DCVC-DC）在P帧上仍有差距。但他们指出，SWA统一的时空上下文处理框架为未来集成更复杂的机制（如超先验）铺平了道路。

...

#xxx

...

#xxx

...