Neural Representation for Wireless Radiation Field Reconstruction (II)

文章目录

- [IV. THE WRF-GS+ FRAMEWORK](#IV. THE WRF-GS+ FRAMEWORK)
- - [A. Scenario Representation Network Using Deformable 3D Gaussians](#A. Scenario Representation Network Using Deformable 3D Gaussians)
  - [A. Implementation Details](#A. Implementation Details)
- [VII. CASE STUDIES](#VII. CASE STUDIES)
- - [B. Case Study II: CSI Prediction](#B. Case Study II: CSI Prediction)

IV. THE WRF-GS+ FRAMEWORK

如第六节和第七节所示，所提出的 WRF-GS 框架在重建 WRF 和合成用于无线信道建模的空间频谱方面表现出显著的有效性。然而， WRF-GS 在精确建模高频信号变化方面面临局限性，因为 WRF-GS 中 3D 高斯的静态特性限制了其捕捉由复杂多径效应引起的信道快速变化的能力。

为了应对这一挑战，我们提出了 WRF-GS+ ，这是一个增强型框架，它引入了可变形 3D 高斯来更好地对动态信号变化进行建模，并结合了使用 α \alpha α 混合（ α \alpha α-blending ）的电磁溅射以简化建模过程。

A. Scenario Representation Network Using Deformable 3D Gaussians

虽然 WRF-GS 有效地对无线环境进行了建模，但它难以准确捕捉由复杂多径效应引起的快速信号变化。为了解决这一局限性，我们引入了一种基于可变形 3D 高斯的动态建模框架，该框架最初是为视觉场景中的连续运动（continuous motion in visual scenes）而设计的。与无法捕捉时间变化的静态 3D 高斯不同，可变形 3D 高斯（deformable 3D Gaussians）分离了静态结构，并将其存储在与时间无关的 "规范（canonical）"高斯中。运动通过一个学习到的 MLP 进行建模，该 MLP 随时间调整位置、旋转和缩放 $12$ 。

这种设计非常适合无线信道建模，其中信号变化类似于视觉场景中的时间动态。这种变化通常是由反射路径和阴影效应引起的。鉴于此，我们采用可变形 3D 高斯将信号分解为静态和动态分量。这使得分别对大尺度衰落（例如路径损耗）和小尺度衰落（例如多径效应）进行高效建模成为可能。它还改善了对高频信号变化的处理。

图 8. 增强的场景表示网络。随机的 3D 点被用于初始化 3D 高斯，每个 3D 高斯由位置、不透明度、信号强度、旋转和缩放等属性表征。这些 3D 高斯与 TX 位置一起被输入到变形网络中，以计算这些属性的动态偏移量。这些动态偏移量与原始的静态属性相结合，从而推导出 3D 高斯的最终特征。随后，这些更新后的属性会通过投影模型和电磁溅射进行处理，以合成最终的空间频谱。

如图 8 所示，场景表示网络从 3D 点初始化高斯基元，每个基元都被分配了不透明度、信号强度、旋转和缩放等属性。与引入额外属性来显式建模信号衰减的 WRF-GS 不同， WRF-GS+ 直接利用不透明度属性来捕捉衰减特性。信号强度、旋转和缩放属性完全由 3D 高斯的中心位置决定。值得注意的是，信号的这些静态分量（对应于大尺度衰落）仅取决于虚拟 TX 相对于 RX 的相对位置，因为环境分布保持不变。因此，这些属性被用来表征静态分量：信号强度由原始颜色属性表示，而旋转和缩放定义了高斯的大小和方向，从而影响虚拟 TX 的覆盖区域。

为了对小尺度衰落（即信号的动态分量）进行建模，我们引入了一个变形网络（Deformation Network， D Θ D_\Theta DΘ）。在复杂的真实环境中，多径效应会导致信号的传播路径发生剧烈变化；变形网络的作用正是捕捉这些物理变化，并将其直观地表现为虚拟发射机（TX）在覆盖范围和形状上的动态改变。

在具体实现上，变形网络是一个多层感知机（MLP）。它的核心任务是将"3D 高斯的初始坐标"和"真实 TX 的位置"作为输入，映射计算出这些高斯基元在 信号强度、旋转角度和缩放比例 上的动态偏移量（即变化差值）。网络的权重 Θ \Theta Θ 就在学习这种映射关系的过程中得到不断优化。

在具体的网络架构设计上（如图 9 所示），其计算流程如下：

特征提取主干：输入数据首先会经过 8 个全连接层（隐藏层维度均为 256，且使用 ReLU 作为激活函数）进行处理，最终提取出一个 256 维的深度特征向量。
跳跃连接（Skip Connection）：值得注意的是，为了强化网络对空间位置的记忆，我们借鉴了 NeRF 模型中的经典设计。具体而言，我们将第 4 层的输出特征与最原始的输入数据进行了拼接（Concatenate），然后再将合并后的数据送入第 5 层继续处理。
独立偏移量输出：最终生成的 256 维特征向量会被分别送入另外 3 个不带激活函数的全连接层。这三个分支独立负责输出信号强度、旋转和缩放的最终偏移量。
D Θ : ( G ( x ) , P TX ) ⇒ ( Δ sig ( x ) , Δ rot ( x ) , Δ scal ( x ) ) , (14) D_\Theta : (G(\boldsymbol{x}), P_{\text{TX}}) \Rightarrow (\Delta_{\text{sig}}(\boldsymbol{x}), \Delta_{\text{rot}}(\boldsymbol{x}), \Delta_{\text{scal}}(\boldsymbol{x})), \tag{14} DΘ:(G(x),PTX)⇒(Δsig(x),Δrot(x),Δscal(x)),(14)

其中 Δ sig ( x ) \Delta_{\text{sig}}(\boldsymbol{x}) Δsig(x) 、 Δ rot ( x ) \Delta_{\text{rot}}(\boldsymbol{x}) Δrot(x) 和 Δ scal ( x ) \Delta_{\text{scal}}(\boldsymbol{x}) Δscal(x) 分别表示信号强度、旋转和缩放的偏移量。一旦获得动态分量，它们就会与静态分量结合，形成特定 TX 位置处 3D 高斯的完整属性。然后，这些属性将用于随后的坐标投影变换和电磁信号计算过程。

通过结合可变形 3D 高斯，改进的场景表示网络有效地将大尺度和小尺度衰落的特征整合到信道模型中。这种增强使得网络能够准确捕捉高频变化，显著提高了其可解释性和表征能力（significantly improving its interpretability and characterization capabilities）。

WRF-GS+ 的深刻见解（物理与算法的解耦）：
作者意识到，无论接收到的信号怎么上蹿下跳，物理房间（墙壁、桌子）是永远不会动的。信号的剧烈变化，仅仅是因为波的"干涉状态"变了。
所以，WRF-GS+ 强行将网络切成了两半，顺应了通信物理学定律：

静态的 3D 高斯体（大尺度衰落）：负责锚定死物理环境。它刻画了墙在哪、距离多远、基础路径损耗是多少。这构成了环境的 "绝对基准"。

形变网络（小尺度衰落）：仅仅负责输出当发射机移动时，那些固定的反射点在 "体型(缩放）" 和 "朝向（旋转)" 上的微小偏移量。

A. Implementation Details

所提出的方法在 Python 中实现，利用定制的 CUDA 内核进行光栅化 $11$ ，并在 NVIDIA GeForce RTX 3090 GPU 上进行训练。值得注意的是，我们通过欧拉公式将复信号分离为实部和虚部来处理复信号，而不是将复信号分解为幅度和相位。此操作实现了 CUDA 内核中的并行化计算。具体实现细节提供如下。

位置初始化： 我们在指定范围内随机生成 3D 点。这些点的位置用于初始化 3D 高斯的中心坐标。此外，我们实现了一种自适应密度控制策略 $11$ ，以在训练过程中学习 3D 高斯的位置分布。与 LiDAR 点云初始化 $1$ 相比，随机点初始化可以克服对多模态输入的需求，并最大限度地减少对 LiDAR 点云质量的依赖。在仿真中，我们随机初始化了 200,000 个高斯进行训练。通过密度控制等一系列优化过程，高斯的数量最终将收敛在 50,000 到 100,000 之间。

位置编码： 为了提高空间分辨率，我们引入了一种高效的位置编码方法 $6$ ，即：
γ ( t ) = ( sin ⁡ ( π t ) , cos ⁡ ( π t ) , ... , sin ⁡ ( 2 L π t ) , cos ⁡ ( 2 L π t ) ) , (16) \gamma(t) = (\sin(\pi t), \cos(\pi t), \dots, \sin(2^L \pi t), \cos(2^L \pi t)), \tag{16} γ(t)=(sin(πt),cos(πt),...,sin(2Lπt),cos(2Lπt)),(16)
其中 t t t 表示输入的 3D 坐标，且 L L L 是位置编码的阶数。对于 MLP 中 P TX P_{\text{TX}} PTX 和 G ( x ) G(\boldsymbol{x}) G(x) 的输入位置编码，我们设置 L = 9 L = 9 L=9 。
优化细节： 在场景表示网络中，我们需要基于训练数据集来训练 MLP 并学习 3D 高斯表示。训练过程总共包含 200,000 次迭代。在前 3,000 次迭代中，仅训练 3D 高斯以实现相对稳定的位置和形状。此后，在剩余的迭代中将 3D 高斯和变形场一起进行训练。我们采用 Adam 优化器进行训练。通过比较合成空间频谱 I pred I_{\text{pred}} Ipred 和真实值 I gt I_{\text{gt}} Igt 之间的差异来计算损失函数：
L = ( 1 − η ) ∣ I gt − I pred ∣ + η ( 1 − ξ ( I gt , I pred ) ) , (17) \mathcal{L} = (1 - \eta)|I_{\text{gt}} - I_{\text{pred}}| + \eta(1 - \xi(I_{\text{gt}}, I_{\text{pred}})), \tag{17} L=(1−η)∣Igt−Ipred∣+η(1−ξ(Igt,Ipred)),(17)其中 ξ ( I gt , I pred ) \xi(I_{\text{gt}}, I_{\text{pred}}) ξ(Igt,Ipred) 是结构相似性指数测度（SSIM）函数 $29$ ，用于测量两幅图像之间的相似性。此外， η = 0.2 \eta = 0.2 η=0.2 是加权因子。

VII. CASE STUDIES

B. Case Study II: CSI Prediction

我们将 WRF-GS+ 和 WRF-GS 方法应用于 MIMO 系统中的下行链路 CSI 预测任务。通常，在频分双工（FDD）系统中，下行链路和上行链路传输在不同的频带上运行，此时上下行链路的互易性不成立。基站（BS）可以通过发送导频序列给终端设备，从上行信道反馈中获取每个天线的下行链路 CSI 。然而，这种反馈的开销与天线和设备的数量成正比，这在 Massive MIMO 系统中是不可能承受的。

基于上下行链路传输经历相同物理环境这一事实，使用在 BS 处测量的上行链路 CSI 来推断下行链路 CSI 是合理的。为了实现这一目标，我们采用 WRF-GS 基于上行链路 CSI 来预测下行链路 CSI 。正如文献 $35$ 所指出的，每个 CSI 都是独特的，并且与物理环境高度相关。因此，设备的位置及其上行链路 CSI 之间存在映射关系，这类似于基于指纹的定位。考虑到这一点，等式 (8) 可以重写为

F Θ : ( G ( x ) , I u ( x ) ) ⇒ ( δ ( x ) , S ( x ) ) , (18) F_{\Theta} : (G(\boldsymbol{x}), I_u(\boldsymbol{x})) \Rightarrow (\delta(\boldsymbol{x}), S(\boldsymbol{x})), \tag{18} FΘ:(G(x),Iu(x))⇒(δ(x),S(x)),(18)

其中 I u ( x ) I_u(\boldsymbol{x}) Iu(x) 是位置 x \boldsymbol{x} x 处的上行链路 CSI 。因此，通过采用与第六节 A 部分相似的配置，我们可以将 WRF-GS 框架应用于下行链路 CSI 预测任务。

为了保证数学和物理上的自洽，这个公式应该被改写为：
F Θ : ( G ( x ) , I u ( P T X ) ) ⇒ ( δ ( x ) , S ( x ) ) F_{\Theta} : (G(\boldsymbol{x}), I_u(P_{TX})) \Rightarrow (\delta(\boldsymbol{x}), S(\boldsymbol{x})) FΘ:(G(x),Iu(PTX))⇒(δ(x),S(x))

或者，如果我们引入一个新的变量 p u \boldsymbol{p}u pu 代表用户的物理位置：
F Θ : ( G ( x ) , I u ( p u ) ) ⇒ ( δ ( x ) , S ( x ) ) F{\Theta} : (G(\boldsymbol{x}), I_u(\boldsymbol{p}_u)) \Rightarrow (\delta(\boldsymbol{x}), S(\boldsymbol{x})) FΘ:(G(x),Iu(pu))⇒(δ(x),S(x))

这样物理逻辑才能闭环：

输入： 位于 x \boldsymbol{x} x 处的墙壁高斯点 G ( x ) G(\boldsymbol{x}) G(x)，以及由位于 p u \boldsymbol{p}_u pu 处的真实用户发射出的射频指纹 I u ( p u ) I_u(\boldsymbol{p}_u) Iu(pu)。

输出： 神经网络计算出，在接收到这个特定射频指纹的环境下，墙壁点 x \boldsymbol{x} x 会表现出怎样的衰减 δ ( x ) \delta(\boldsymbol{x}) δ(x) 和反射信号 S ( x ) S(\boldsymbol{x}) S(x)。

对于 WRF-GS+ 方法，我们通过将等式 (14) 修改为以下形式，将变形网络调整为适用于此 CSI 预测任务：

D Θ : ( G ( x ) , I u ( x ) ) ⇒ ( δ Sig ( x ) , δ r ( x ) , δ s ( x ) ) . (19) D_{\Theta} : (G(\boldsymbol{x}), I_u(\boldsymbol{x})) \Rightarrow (\delta_{\text{Sig}}(\boldsymbol{x}), \delta_{\text{r}}(\boldsymbol{x}), \delta_{\text{s}}(\boldsymbol{x})). \tag{19} DΘ:(G(x),Iu(x))⇒(δSig(x),δr(x),δs(x)).(19)

请注意，输入从 TX 的位置更改为了上行链路 CSI ，并且整个流水线的输出（the output of the whole pipeline）从空间频谱更改为了下行链路 CSI 。