SSGNN: SIMPLE YET EFFECTIVE SPECTRAL GRAPH NEURAL NETWORK
推荐指数:#paper/⭐⭐⭐#(如果验证有效的话)
贡献:我们提出了一种简单的架构,其特点是:i) 用于捕获特征值相互依赖关系和全局结构信息的光谱编码;ii) 一个解码器,用作一组滤波器库(filter bank),支持根据图形特性使用频谱滤波器的自适应学习,并通过我们的无参数 ReGA 模块得到增强。
方法
光谱编码器
首先,使用特征值重构(请原谅我这样叫,不知道具体怎么说)来保证 λ ‾ i \overline{\lambda}_{i} λi单调递增, β \beta β是超参
\\bar{\\lambda}_{i}=\\beta\\lambda_{i}+(1-\\beta)\\frac{2i}{N-1},\\forall i\\in N,
下一步,我们将特征值函数扩充为有意义的信息: ϕ : R ↦ R d \phi : \mathbb{R} \mapsto \mathbb{R}^{d} ϕ:R↦Rd
\\begin{aligned}\\phi(\\bar{\\lambda}_k,2i)=\\sin((\\epsilon\\bar{\\lambda}_k)/10000\^{2i/d})\~;\~\\phi(\\bar{\\lambda}_k,2i+1)=\\cos((\\epsilon\\bar{\\lambda}_k)/10000\^{2i/d}),\~\\forall k\\in N.\\end{aligned}
这样,我们就可以得到扩充的特征值中间嵌入(通过拼接操作,||指的是拼接):
Z_{eig}=(\\bar{\\lambda}_{0}\\\|\\phi(\\bar{\\lambda}_{0}),\\ldots,\\bar{\\lambda}_{n}\\\|\\phi(\\bar{\\lambda}_{n}))\\in\\mathbb{R}\^{N\\times(d+1)}
最终,特征值嵌入为:
\\hat{\\boldsymbol{Z}}_{eiq} = \\boldsymbol{Z}_{eiq}\\boldsymbol{W}_{eiq} ,\\boldsymbol{\\hat{\\boldsymbol{Z}}}_{eiq} \\in \\mathbb{R}\^{N\\times(d+1)}
这样,就可以:(i) 校正后的特征值 λ ˉ \bar{\lambda} λˉ,它保留了基本的全局结构信息,以及 (ii) ϕ ( λ ˉ i ) \phi(\bar{\lambda}_{i}) ϕ(λˉi),它捕获了这些校正特征值的振荡行为。
本文试图用此函数特征值函数来捕获高频与低频特征
解码器
λ h = σ ( Z ^ e i g W 1 ) W h , λ h ∈ R N × 1 , W 1 ∈ R ( d + 1 ) × ( d + 1 ) , W h ∈ R ( d + 1 ) × 1 \lambda_h=\sigma(\hat{\boldsymbol{Z}}_{eig}\boldsymbol{W}_1)\boldsymbol{W}_h, \lambda_h\in\mathbb{R}^{N\times1}, \boldsymbol{W}_1\in\mathbb{R}^{(d+1)\times(d+1)}, \boldsymbol{W}_h\in\mathbb{R}^{(d+1)\times1} λh=σ(Z^eigW1)Wh,λh∈RN×1,W1∈R(d+1)×(d+1),Wh∈R(d+1)×1
为了捕获多为信息,我们仿照多头注意力引入了多头。
为了解决解码器聚焦在不相关的特征上的噪声问题,阻碍其准确隔离目标频段的有效性,我们在解码器级别实现了均值偏移。使用原始的均值分离 λ h − μ h , ∀ h ∈ H \lambda_{h}-\mu_{h}, \forall{h} \in H λh−μh,∀h∈H, μ h = 1 N ∑ k = 1 N λ h k \mu_{h}=\frac{1}{N}\sum_{k=1}^{N}\lambda_{h k} μh=N1∑k=1Nλhk可能会导致不一致,因为分布可能会因频率分量的变化而不可预测地波动。
因此,我们使用 z h = 1 σ h ( λ h − μ h ) z_h=\frac1{\sigma_h}(\lambda_h-\mu_h) zh=σh1(λh−μh)。其中 σh 表示每个磁头 h 的学习幅度的标准差。 σ h = 1 N ∑ k = 1 N ( λ h k − μ h ) 2 + ϵ \sigma_{h}=\sqrt{\frac{1}{N}\sum_{k=1}^{N}(\lambda_{h k}-\mu_{h})^{2}}+\epsilon σh=N1∑k=1N(λhk−μh)2 +ϵ
自适应特征放大器
f_{z_h}=G_h(z_h)=e\^{-\\frac{(z_h)\^2}{2b\^2}}, f_{z_h}\\in\\mathbb{R}\^{N\\times1}
最终, λ h ^ = f z h ⊙ λ h \hat{\lambda_h} = f_{z_h} \odot \lambda_h λh^=fzh⊙λh。 λ ^ i h = ∣ λ ^ i h − λ i ∣ \hat{\lambda}{ih}=|\hat{\lambda}{ih}-\lambda_{i}| λ^ih=∣λ^ih−λi∣
图卷积
\\boldsymbol{F}_h=\\boldsymbol{U}\\mathrm{diag}(\\boldsymbol{\\lambda}_h)\\boldsymbol{U}\^\\top,\\quad\\hat{\\boldsymbol{F}}=\\mathrm{MLP}(\[\\boldsymbol{F}_0\|\|\\cdots\|\|\\boldsymbol{F}_{H-1}\])$$$$\\bar{\\boldsymbol{X}}\^{(l-1)}=\\hat{\\boldsymbol{F}}\\boldsymbol{X}\^{(l-1)}, \\boldsymbol{X}\^{(l)}=\\sigma(\\bar{\\boldsymbol{X}}\^{(l-1)}\\boldsymbol{W}\^{(l-1)}),
总结
看起来挺有意思的减分项是:在有监督学习中引入了超参(应该是三个),甚至超参 β \beta β没有做消融(可能是我漏看了?)
加分项就是用的数据集多(pyg和yandex都用了)。具体的效果得看消融吧。
但是,对于我而言,由于graph transformer看得少,不知道最近的工作有什么新进展,因此读论文可能有所纰漏