SSGNN: SIMPLE YET EFFECTIVE SPECTRAL GRAPH NEURAL NETWORK

推荐指数：#paper/⭐⭐⭐#(如果验证有效的话）

贡献：我们提出了一种简单的架构，其特点是：i）用于捕获特征值相互依赖关系和全局结构信息的光谱编码;ii）一个解码器，用作一组滤波器库（filter bank），支持根据图形特性使用频谱滤波器的自适应学习，并通过我们的无参数 ReGA 模块得到增强。

方法

光谱编码器

首先，使用特征值重构（请原谅我这样叫，不知道具体怎么说）来保证 λ ‾ i \overline{\lambda}_{i} λi单调递增， β \beta β是超参

\\bar{\\lambda}_{i}=\\beta\\lambda_{i}+(1-\\beta)\\frac{2i}{N-1},\\forall i\\in N,

下一步，我们将特征值函数扩充为有意义的信息： ϕ : R ↦ R d \phi : \mathbb{R} \mapsto \mathbb{R}^{d} ϕ:R↦Rd

\\begin{aligned}\\phi(\\bar{\\lambda}_k,2i)=\\sin((\\epsilon\\bar{\\lambda}_k)/10000\^{2i/d})\~;\~\\phi(\\bar{\\lambda}_k,2i+1)=\\cos((\\epsilon\\bar{\\lambda}_k)/10000\^{2i/d}),\~\\forall k\\in N.\\end{aligned}

这样，我们就可以得到扩充的特征值中间嵌入（通过拼接操作，||指的是拼接)：

Z_{eig}=(\\bar{\\lambda}_{0}\\\|\\phi(\\bar{\\lambda}_{0}),\\ldots,\\bar{\\lambda}_{n}\\\|\\phi(\\bar{\\lambda}_{n}))\\in\\mathbb{R}\^{N\\times(d+1)}

最终，特征值嵌入为：

\\hat{\\boldsymbol{Z}}_{eiq} = \\boldsymbol{Z}_{eiq}\\boldsymbol{W}_{eiq} ,\\boldsymbol{\\hat{\\boldsymbol{Z}}}_{eiq} \\in \\mathbb{R}\^{N\\times(d+1)}

这样，就可以：（i）校正后的特征值 λ ˉ \bar{\lambda} λˉ，它保留了基本的全局结构信息，以及（ii） ϕ ( λ ˉ i ) \phi(\bar{\lambda}_{i}) ϕ(λˉi)，它捕获了这些校正特征值的振荡行为。

本文试图用此函数特征值函数来捕获高频与低频特征

解码器

λ h = σ ( Z ^ e i g W 1 ) W h , λ h ∈ R N × 1 , W 1 ∈ R ( d + 1 ) × ( d + 1 ) , W h ∈ R ( d + 1 ) × 1 \lambda_h=\sigma(\hat{\boldsymbol{Z}}_{eig}\boldsymbol{W}_1)\boldsymbol{W}_h, \lambda_h\in\mathbb{R}^{N\times1}, \boldsymbol{W}_1\in\mathbb{R}^{(d+1)\times(d+1)}, \boldsymbol{W}_h\in\mathbb{R}^{(d+1)\times1} λh=σ(Z^eigW1)Wh,λh∈RN×1,W1∈R(d+1)×(d+1),Wh∈R(d+1)×1

为了捕获多为信息，我们仿照多头注意力引入了多头。

为了解决解码器聚焦在不相关的特征上的噪声问题，阻碍其准确隔离目标频段的有效性，我们在解码器级别实现了均值偏移。使用原始的均值分离 λ h − μ h , ∀ h ∈ H \lambda_{h}-\mu_{h}, \forall{h} \in H λh−μh,∀h∈H， μ h = 1 N ∑ k = 1 N λ h k \mu_{h}=\frac{1}{N}\sum_{k=1}^{N}\lambda_{h k} μh=N1∑k=1Nλhk可能会导致不一致，因为分布可能会因频率分量的变化而不可预测地波动。

因此，我们使用 z h = 1 σ h ( λ h − μ h ) z_h=\frac1{\sigma_h}(\lambda_h-\mu_h) zh=σh1(λh−μh)。其中 σh 表示每个磁头 h 的学习幅度的标准差。 σ h = 1 N ∑ k = 1 N ( λ h k − μ h ) 2 + ϵ \sigma_{h}=\sqrt{\frac{1}{N}\sum_{k=1}^{N}(\lambda_{h k}-\mu_{h})^{2}}+\epsilon σh=N1∑k=1N(λhk−μh)2 +ϵ

自适应特征放大器

f_{z_h}=G_h(z_h)=e\^{-\\frac{(z_h)\^2}{2b\^2}}, f_{z_h}\\in\\mathbb{R}\^{N\\times1}

最终， λ h ^ = f z h ⊙ λ h \hat{\lambda_h} = f_{z_h} \odot \lambda_h λh^=fzh⊙λh。 λ ^ i h = ∣ λ ^ i h − λ i ∣ \hat{\lambda}{ih}=|\hat{\lambda}{ih}-\lambda_{i}| λ^ih=∣λ^ih−λi∣

图卷积

\\boldsymbol{F}_h=\\boldsymbol{U}\\mathrm{diag}(\\boldsymbol{\\lambda}_h)\\boldsymbol{U}\^\\top,\\quad\\hat{\\boldsymbol{F}}=\\mathrm{MLP}(\[\\boldsymbol{F}_0\|\|\\cdots\|\|\\boldsymbol{F}_{H-1}\])$$$$\\bar{\\boldsymbol{X}}\^{(l-1)}=\\hat{\\boldsymbol{F}}\\boldsymbol{X}\^{(l-1)}, \\boldsymbol{X}\^{(l)}=\\sigma(\\bar{\\boldsymbol{X}}\^{(l-1)}\\boldsymbol{W}\^{(l-1)}),

总结

看起来挺有意思的减分项是：在有监督学习中引入了超参（应该是三个)，甚至超参 β \beta β没有做消融（可能是我漏看了？）

加分项就是用的数据集多（pyg和yandex都用了)。具体的效果得看消融吧。

但是，对于我而言，由于graph transformer看得少，不知道最近的工作有什么新进展，因此读论文可能有所纰漏

‍