Rethinking Graph Neural Networksfor Anomaly Detection

AAAI24

推荐指数 #paper/⭐⭐ (由于这个领域初读，因此给的推荐分可能不好)

个人总结：

其在半监督（1%，40%）的情况下，使用多通滤波器，将不同滤波器得到的特征拼接起来，来做分类，结果肯定会好(拼接在理论上比mean，sum等获得更多的信息，在不少的其他论文也用了这个trick)

（悄咪咪的说：有没有发现，这个过滤器是不是很像BERNNET）

摘要等

利用多通滤波器对其进行匿名检测

如图所示，Beta kernels 时提出的滤波器，其有很多混通的滤波器

网络架构

Hammond graph wavelet

其优点类似于光谱滤波器

定义一组wavelet基：
W = ( W ψ 1 , W ψ 2 , ⋯ ) \mathcal{W}=(\mathcal{W}{\boldsymbol{\psi}{1}},\mathcal{W}{\boldsymbol{\psi}{2}},\cdots) W=(Wψ1,Wψ2,⋯)

图wavelet变换可以定义为:
W ψ i ( x ) = U q i ( Λ ) U T x , \mathcal{W}_{\psi_i}(\boldsymbol{x})=\boldsymbol{U}q_i(\boldsymbol{\Lambda})\boldsymbol{U}^T\boldsymbol{x}, Wψi(x)=Uqi(Λ)UTx,

从这个来看，其与图傅里叶光谱卷积。但是，其的不同在于：
∫ 0 ∞ ∣ g i ( w ) ∣ 2 w d w = C g < ∞ , \int_0^\infty\frac{|g_i(w)|^2}wdw=C_g<\infty, ∫0∞w∣gi(w)∣2dw=Cg<∞,

beta wavelet 在图上的应用

beta wavelet是wavelet的一种形式，近似的beta distribution 为:
β p , q ( w ) = { 1 B ( p + 1 , q + 1 ) w p ( 1 − w ) q if w ∈ [ 0 , 1 ] 0 otherwise \left.\beta_{p,q}(w)=\left\{\begin{array}{ll}\frac{1}{B(p+1,q+1)}w^p(1-w)^q&\text{if} w\in[0,1]\\0&\text{otherwise}\end{array}\right.\right. βp,q(w)={B(p+1,q+1)1wp(1−w)q0ifw∈[0,1]otherwise

其中，
p , q ∈ R + and B ( p + 1 , q + 1 ) = p ! q ! / ( p + q + 1 ) ! p,q\in\mathbb{R}^+\text{ and }B(p+1,q+1)=p!q!/(p+q+1)! p,q∈R+ and B(p+1,q+1)=p!q!/(p+q+1)!

由于标准化图拉普拉斯矩阵满足特征值 λ ∈ [ 0 , 2 ] \lambda\in[0,2] λ∈[0,2],我们因此应用:
β p , q ∗ ( w ) = 1 2 β p , q ( w 2 ) \beta_{p,q}^*(w)=\frac12\beta_{p,q}(\frac w2) βp,q∗(w)=21βp,q(2w)

除此之外，我们让 p , q ∈ N + p,q \in \mathbb{N}^+ p,q∈N+去确保 β ∗ ( p , q ) \beta^{*}(p,q) β∗(p,q)是光谱多项式

最终，beta wavelet transform 可以被重写为:
W p , q = U β p , q ∗ ( Λ ) U T = β p , q ∗ ( L ) = ( L 2 ) p ( I − L 2 ) q 2 B ( p + 1 , q + 1 ) . \mathcal{W}{p,q}=\boldsymbol{U}\beta{p,q}^*(\boldsymbol{\Lambda})\boldsymbol{U}^T=\beta_{p,q}^*(\boldsymbol{L})=\frac{(\frac{\boldsymbol{L}}2)^p(I-\frac{\boldsymbol{L}}2)^q}{2B(p+1,q+1)}. Wp,q=Uβp,q∗(Λ)UT=βp,q∗(L)=2B(p+1,q+1)(2L)p(I−2L)q.

我们做了如下的限制: p + q = C p+q=C p+q=C

这样，我们可以得到 C + 1 C+1 C+1个beta wavelets:
W = ( W 0 , C , W 1 , C − 1 , . . . , W C , 0 ) \mathcal{W}=(\mathcal{W}{0,C},\mathcal{W}{1,C-1},...,\mathcal{W}_{C,0}) W=(W0,C,W1,C−1,...,WC,0)

这样， W 0 , C W_{0,C} W0,C是低通，其他是混通过滤器

这样， ∫ 0 ∞ ∣ β p , q ∗ ( w ) ∣ 2 w d w ≤ ∫ 0 2 d w 2 B ( p + 1 , q + 1 ) < ∞ . \int_0^\infty\frac{|\beta_{p,q}^*(w)|^2}wdw\leq\int_0^2\frac{dw}{2B(p+1,q+1)}<\infty. ∫0∞w∣βp,q∗(w)∣2dw≤∫022B(p+1,q+1)dw<∞.就满足Hammond graph wavelet 的限制

Beta Wavelet 图神经网络：

Z i = W i , C − i ( M L P ( X ) ) H = A G G ( [ Z 0 , Z 1 , ⋅ ⋅ ⋅ , Z C ] ) , \begin{aligned}&Z_{i}=\mathcal{W}_{i,C-i}(\mathrm{MLP}(X))\\&H=\mathrm{AGG}([Z_0,Z_1,\cdotp\cdotp\cdotp,Z_C]),\end{aligned} Zi=Wi,C−i(MLP(X))H=AGG([Z0,Z1,⋅⋅⋅,ZC]),

损失函数则是：

首先，将H通过带有sigmoid激活函数的MLP去将H转为不正常概率 p i p_{i} pi

其次，再用weighted CE loss去计算损失：
L = ∑ ( γ y i log ⁡ ( p i ) + ( 1 − y i ) log ⁡ ( 1 − p i ) ) , \mathcal{L}=\sum(\gamma y_i\log(p_i)+(1-y_i)\log(1-p_i)), L=∑(γyilog(pi)+(1−yi)log(1−pi)),
γ \gamma γ是正常标签与不正常标签的比值。

实验结果：

数据集

使用了yelpchi,amazon,T-finance,T-social数据集