论文阅读：Omnidirectional Image Super-resolution via Bi-projection Fusion

对于全景图像（ODIs）的超分辨率的技术有：等矩投影（ERP）但是这个没有利用 ODIs 的独特任何特性。ERP提供了完整的视场但引入了显著的失真，而立方体映射投影（CMP）可以减少失真但视场有限。

作者提出了一种新颖的双投影全景图像超分辨率（BPOSR）网络，以利用上述两种投影的几何特性。然后，为这两种投影设计了两种定制的注意力方法：用于ERP的水平条纹变换块（HSTB）和用于CMP的视角变换变换块（PSTB）。此外，作者提出了一种融合模块，使这些投影相互补充。

正文

将传统的二维图像的超分辨率方法用于全景图像的超分辨率是不可行的，因为将球面全景图像投影到二维平面时会出现失真和不连续性。同时，图像域之间的不同特性增加了ODIs重建的复杂性。

当前的用于全景图像的超分辨率网络主要是集中在了 ERP 域中解决这一任务，没有考虑 ODIs 中使用的各种投影格式。

ODIs中最常用的两种投影格式是等矩投影（ERP）和立方体映射投影（CMP）。具体而言，ERP提供广泛的全局视图但引入显著失真，而CMP失真较小，但仅提供有限的中央视图，并且边界不连续。

所以作者为了可以充分利用这两种投影的任何特性与互补信息，开发了双投影全景图像超分辨率（BPOSR）网络，使得 ERP 与 CMP 分支的信息流同时进行，并允许不同投影特征之间的交互和融合。

从下图可以看出，ERP 与 CMP 的不同的特性：

(a) ERP水平相似性。将ERP在水平方向上划分为不同区域后，可以观察到每个区域内存在多尺度相似性。

(b) CMP透视可变性。橙色箭头表示球面旋转，绿色箭头表示投影到CMP上。通过球面旋转和投影到CMP上，CMP的六个表面捕捉到不同的信息。

基于这些观察，我们为ERP引入了水平条纹变换块（HSTB），为CMP引入了视角变换变换块（PSTB），以充分挖掘不同投影的内在特性。最后，我们开发了一个块注意融合模块（BAFM），以促进来自不同投影和深度的特征之间的信息交互，并通过分配不同的注意权重来增强网络的表示学习能力。

贡献

提出了一个双投影全景图像超分辨率（BPOSR）网络，利用两种全景投影，即ERP和CMP，促进两种投影信息的交互。
通过分析ERP和CMP的图像几何特性，引入了水平条纹变换块（HSTB）和视角变换变换块（PSTB），以利用两种投影的内在特性。
引入了一个块注意融合模块（BAFM），促进来自不同投影和深度的特征之间的融合。

ODIs 分析

等距圆柱投影（ERP）

ERP 通过经度和纬度均匀采样球体。设经度和纬度分别为φ和θ，其中， ( ϕ , θ ) ∈ [ − π , π ] ∗ [ − π 2 , π 2 ] (\phi, \theta) \in [-\pi, \pi] * [-\frac{\pi}{2}, \frac{\pi}{2}] (ϕ,θ)∈[−π,π]∗[−2π,2π]. 角度位置可以通过以下公式转换为标准球体上的坐标：

从以下的图片中可以看到，ERP将球体投影到单个表面，从而获得宽广的视场。然而，由于投影中纬线的均匀间距和平行特性，ERP引入了显著的失真，尤其是在极附近。随着纬线向极点收敛，失真变得更加明显，导致图像拉长和变形。

水平相似性

如图2（a）所示，ERP图像的水平区域普遍存在多尺度相似性。因此，传统的全局尺度各向同性注意力机制对于处理ERP图像特征变得冗余。

因此，为ERP提出了一种更合适的方法，即利用水平窗口来建模图像内部依赖关系。此外，通过结合这些水平窗口内的局部感知和上下文信息，我们可以引入有限的空间范围来降低注意力的复杂性。

立方体映射投影（CMP）

CMP 是将球体投影到立方体的六个表面上。所得的六个表面是特定的透视图像，对应于六个视图方向：前、后、左、右、上和下。

可以从图 3 b 中看到，与等距圆柱投影（ERP）相比，CMP 在图像失真方面有显著减少。然而，它通过破坏不同面边界处物体的连续性，引入了不连续性问题。

透视可变性

CMP 将球体投影到六个平面，每个平面可以从不同的视角获取球体的信息。如图 2 (b) 所示，当球体旋转并投影到 CMP 时，六个平面的视角会发生变化。

基于这一观察，我们提出了 CMP 的透视可变性。新增加的视角使得信息的可用性得以增强。通过在 CMP 上改变视角，我们有效地增强了 CMP 的特征表示，并解决了 CMP 中图像不连续性的固有局限性。

整体架构

模型主要由 3 个分支组成：ERP分支、CMP分支和融合分支。给定一个低分辨率的输入 I E R P l r I^{lr}{ERP} IERPlr，会先将这个转换为 CMP 形式的 I C M P l r I^{lr}{CMP} ICMPlr，然后使用 3*3 卷积分别提取两个投影的浅层特征，公式如下：

E2C 表示从 ERP 到 CMP 的投影， W 3 ∗ 3 W_{3*3} W3∗3 表示 3*3 的卷积。接下来就是提取 ERP 与 CMP 分支的深层特征，公式如下：

HSAB(·)和PSAB(·)分别是水平条纹变换块和视角变换块。

同时，为了促进两个投影之间的信息交互与特征融合，提出了一种特征交互融合块，这个块会利用 F E R P i F_{ERP}^i FERPi 与 F C M P i F_{CMP}^i FCMPi 生成融合特征，然后将结果特征施加到源特征上。这个过程如下：

最后，为了整合来自不同分支和不同深度的特征，我们开发了一个块注意力融合模块（BAFM），以生成最终特征 F f F_f Ff，如下所示：

最后，通过具有单个3×3卷积和像素 shuffle 操作的上采样模块来重建高分辨率图像 F u p F_{up} Fup：

水平条纹变换块（HSTB）

HSTB是通过利用ERP的水平相似性设计的，它由多个水平Swin变换层（HSTL）和一个卷积层组成，如图4（a）所示。

与传统的 SwinIR 不同，作者将输入特征分为水平窗口，并对这些特征应用移位窗口自注意力机制。如下图所示：

HSTL利用水平条纹窗口内的自注意力机制来建立长期依赖关系。通过将注意力计算限制在水平窗口内，我们能够在更广泛和有效的范围内建立依赖关系，从而全面探索ERP中的上下文信息。

视角变换块（PSTB）

PSTB是基于CMP的视角可变性设计的。如图4（b）所示。PSTB由多个具有移位窗口自注意力的Swin变换层（Swin transformer layer, STL）和一个卷积层组成。

通过在输入之后和输出之前部署视角变换层（PSL）来引入视角变换。

PSL首先使用C2E将CMP特征 F C M P F_{CMP} FCMP 转换为ERP，然后在ERP域内水平滚动特征。PSL的最终输出是通过E2C将特征转换回CMP得到的，公式如下：

F C M P = E 2 C ( R ( C 2 E ( F C M P ) ) ) F_{CMP}=E2C(R(C2E(F_{CMP}))) FCMP=E2C(R(C2E(FCMP)))
R R R 是水平滚动操作。移位窗口自注意力模块的建模能力受限于不同视图之间缺乏连接，这一限制阻碍了它们充分挖掘CMP的特性。PSTB 通过引入不同视角之间的互连，使得建模范围更广、更有效。