二、核心思想
该论文提出了一种新型的最优传输(Optimal Transport, OT)距离 ,称为 Fused Gromov-Wasserstein(FGW)距离 ,旨在同时利用图结构信息 与节点特征信息,对结构化数据(尤其是图)进行度量学习。
传统方法如:
- Wasserstein 距离:仅比较节点特征(需嵌入在相同空间);
- Gromov-Wasserstein 距离:仅比较结构(通过距离矩阵对齐,不依赖同一特征空间);
但都无法联合建模结构与特征 。FGW 的核心在于融合两者,构建一个统一的 OT 框架,适用于任意结构化对象(如带标签图、时间序列、树等),且支持不同大小、不同节点数的图之间的比较。
三、目标函数
给定两个带特征与结构的图:
- 图 G1G_1G1:概率测度 μ=∑i=1nhiδ(xi,ai)\mu = \sum_{i=1}^n h_i \delta_{(x_i, a_i)}μ=∑i=1nhiδ(xi,ai)
- 图 G2G_2G2:概率测度 ν=∑j=1mgjδ(yj,bj)\nu = \sum_{j=1}^m g_j \delta_{(y_j, b_j)}ν=∑j=1mgjδ(yj,bj)
其中:
- ai∈Ωfa_i \in \Omega_fai∈Ωf 为节点特征,xix_ixi 为结构嵌入;
- h∈Σnh \in \Sigma_nh∈Σn,g∈Σmg \in \Sigma_mg∈Σm 为节点权重(概率直方图);
- C1(i,k)=C(xi,xk)C_1(i,k) = C(x_i, x_k)C1(i,k)=C(xi,xk)、C2(j,l)=C(yj,yl)C_2(j,l) = C(y_j, y_l)C2(j,l)=C(yj,yl) 为结构相似性矩阵(如最短路径距离);
- MAB(i,j)=d(ai,bj)M_{AB}(i,j) = d(a_i, b_j)MAB(i,j)=d(ai,bj) 为特征距离矩阵(如 ℓ2\ell^2ℓ2 距离)。
定义 FGW 距离如下:
FGWq,α(μ,ν)=minπ∈Π(h,g)Eq(MAB,C1,C2,π) \mathrm{FGW}{q,\alpha}(\mu, \nu) = \min{\pi \in \Pi(h, g)} E_q(M_{AB}, C_1, C_2, \pi) FGWq,α(μ,ν)=π∈Π(h,g)minEq(MAB,C1,C2,π)
其中耦合集 Π(h,g)={π∈R+n×m:π1m=h,π⊤1n=g}\Pi(h,g) = \{ \pi \in \mathbb{R}_+^{n \times m} : \pi \mathbf{1}_m = h, \pi^\top \mathbf{1}_n = g \}Π(h,g)={π∈R+n×m:π1m=h,π⊤1n=g},
目标函数为:
Eq(MAB,C1,C2,π)=∑i,j,k,l[(1−α)d(ai,bj)q+α∣C1(i,k)−C2(j,l)∣q]πijπkl E_q(M_{AB}, C_1, C_2, \pi) = \sum_{i,j,k,l} \left[ (1 - \alpha) d(a_i, b_j)^q + \alpha |C_1(i,k) - C_2(j,l)|^q \right] \pi_{ij} \pi_{kl} Eq(MAB,C1,C2,π)=i,j,k,l∑[(1−α)d(ai,bj)q+α∣C1(i,k)−C2(j,l)∣q]πijπkl
等价写成张量形式:
Eq=⟨(1−α)MABq+αL(C1,C2)q⊗π, π⟩ E_q = \langle (1 - \alpha) M_{AB}^q + \alpha \mathcal{L}(C_1, C_2)^q \otimes \pi,\; \pi \rangle Eq=⟨(1−α)MABq+αL(C1,C2)q⊗π,π⟩
其中 Li,j,k,l(C1,C2)=∣C1(i,k)−C2(j,l)∣\mathcal{L}_{i,j,k,l}(C_1, C_2) = |C_1(i,k) - C_2(j,l)|Li,j,k,l(C1,C2)=∣C1(i,k)−C2(j,l)∣,⊗\otimes⊗ 表示张量-矩阵收缩。
关键点 :这是二次型目标函数 (关于 π\piπ),包含了特征对齐项 与结构对齐项 ,由超参数 α∈[0,1]\alpha \in [0,1]α∈[0,1] 控制权衡。
四、目标函数的优化过程
1. 非凸二次规划问题
当 q=2q = 2q=2 时,可将目标函数重写为:
minπ∈Π(h,g)vec(π)⊤Q(α)vec(π)+vec(D(α))⊤vec(π) \min_{\pi \in \Pi(h,g)} \mathrm{vec}(\pi)^\top Q(\alpha) \mathrm{vec}(\pi) + \mathrm{vec}(D(\alpha))^\top \mathrm{vec}(\pi) π∈Π(h,g)minvec(π)⊤Q(α)vec(π)+vec(D(α))⊤vec(π)
其中:
- Q(α)=−2α(C2⊗KC1)Q(\alpha) = -2\alpha (C_2 \otimes_K C_1)Q(α)=−2α(C2⊗KC1)(Kronecker 积),
- D(α)=(1−α)MABD(\alpha) = (1 - \alpha) M_{AB}D(α)=(1−α)MAB。
该问题关于 π\piπ 是非凸二次规划 (因为 QQQ 通常非正定)。
2. 条件梯度法(Conditional Gradient, CG)
采用 Frank-Wolfe 类算法(即条件梯度法)迭代求解:
- 步骤 1 :初始化 π(0)=hg⊤\pi^{(0)} = h g^\topπ(0)=hg⊤
- 步骤 2 :在第 ttt 步,计算梯度:
G(t)=(1−α)MABq+2α[L(C1,C2)q⊗π(t−1)] G^{(t)} = (1 - \alpha) M_{AB}^q + 2\alpha \left[ \mathcal{L}(C_1, C_2)^q \otimes \pi^{(t-1)} \right] G(t)=(1−α)MABq+2α[L(C1,C2)q⊗π(t−1)]
当 q=2q = 2q=2 时,可高效计算为 O(mn2+m2n)O(mn^2 + m^2n)O(mn2+m2n)。 - 步骤 3 :求解线性子问题:
π~(t)=argminπ∈Π(h,g)⟨G(t),π⟩ \tilde{\pi}^{(t)} = \arg\min_{\pi \in \Pi(h,g)} \langle G^{(t)}, \pi \rangle π~(t)=argπ∈Π(h,g)min⟨G(t),π⟩
这是一个标准的线性最优传输问题,可用 Sinkhorn 或网络流算法求解。 - 步骤 4 :线搜索确定步长 τ(t)∈[0,1]\tau^{(t)} \in [0,1]τ(t)∈[0,1],更新:
π(t)=(1−τ(t))π(t−1)+τ(t)π~(t) \pi^{(t)} = (1 - \tau^{(t)}) \pi^{(t-1)} + \tau^{(t)} \tilde{\pi}^{(t)} π(t)=(1−τ(t))π(t−1)+τ(t)π~(t)
线搜索针对二次函数 f(τ)=E2(π(t−1)+τ(π~(t)−π(t−1)))f(\tau) = E_2(\pi^{(t-1)} + \tau (\tilde{\pi}^{(t)} - \pi^{(t-1)}))f(τ)=E2(π(t−1)+τ(π~(t)−π(t−1))) 进行解析最小化(见 Algorithm 2)。
收敛性 :虽然目标非凸,但 CG 能收敛到一阶平稳点(Lacoste-Julien, 2016)。
五、主要贡献点
- 提出 FGW 距离 :首个能同时融合节点特征与图结构的 OT 距离,适用于任意结构化数据。
- 理论性质完备 :
- 当 α→0\alpha \to 0α→0,退化为 Wasserstein 距离;
- 当 α→1\alpha \to 1α→1,退化为 Gromov-Wasserstein 距离;
- 对 q=1q=1q=1,FGW 是度量(满足三角不等式、对称性、恒等性)。
- 支持图上的 Frechét 均值(barycenter)计算:可用于聚类、插值、生成等任务。
- 实验验证 :
- 在 12 个图分类基准上,FGW 显著优于图核方法(如 WLK、SPK)与图神经网络(如 PSCN);
- 在无标签图上,仅用 GW 已优于传统核方法;
- 首次实现端到端的图聚类与簇中心可视化(无需 pre-image 问题)。
六、算法实现细节
论文使用 Python Optimal Transport (POT) 工具箱实现:
- FGW 距离计算 (Algorithm 1):
- 使用条件梯度法;
- 每次迭代需:
- 计算梯度 GGG(复杂度 O(mn2+m2n)O(mn^2 + m^2n)O(mn2+m2n));
- 求解一个经典 OT 问题(可用线性规划或正则化 OT);
- 线搜索(解析解,见 Algorithm 2)。
- FGW Barycenter 计算 (用于聚类):
- 采用块坐标下降法 (Block Coordinate Descent, BCD):
- 固定 (C,A)(C, A)(C,A),更新 πk\pi_kπk:等价于计算 SSS 次 FGW;
- 固定 πk\pi_kπk,更新结构矩阵 CCC:
C←1hh⊤∑kλkπk⊤Ckπk C \leftarrow \frac{1}{h h^\top} \sum_k \lambda_k \pi_k^\top C_k \pi_k C←hh⊤1k∑λkπk⊤Ckπk - 固定 πk\pi_kπk,更新特征 AAA:
A←∑kλkBkπk⊤diag(1/h) A \leftarrow \sum_k \lambda_k B_k \pi_k^\top \mathrm{diag}(1/h) A←k∑λkBkπk⊤diag(1/h)
- 采用块坐标下降法 (Block Coordinate Descent, BCD):
整个框架完全无监督 ,可嵌入 SVM(使用 K=exp(−γ⋅FGW)K = \exp(-\gamma \cdot \mathrm{FGW})K=exp(−γ⋅FGW) 核)、k-NN、t-SNE 等。
七、局限性分析
尽管 FGW 是一项重要突破,但仍存在以下局限:
-
计算复杂度高:
- 每次梯度计算需 O(mn2+m2n)O(mn^2 + m^2n)O(mn2+m2n),对大规模图(如 n>1000n>1000n>1000)不友好;
- 二次规划求解难以扩展到百万级节点图。
-
依赖手工设计的结构度量:
- 论文默认使用最短路径距离 作为 CCC,但该选择未必最优;
- 未探索可学习的结构表示 (如通过 GNN 提取 CCC)。
-
非凸优化的局部最优问题:
- 目标函数非凸,CG 只能保证收敛到局部极小值;
- 初始值敏感,可能影响最终距离的稳定性。
-
未考虑边特征:
- 模型仅处理节点特征 + 结构矩阵 ,无法直接处理带权边特征 或有向图 (除非重新定义 CCC)。
-
超参数调优负担:
- 需交叉验证 α\alphaα(结构-特征权衡)、γ\gammaγ(核宽度)、qqq(距离阶数)等;
- 在实际应用中调参成本较高。
-
理论仅对 q=1q=1q=1 保证度量性质:
- 实践中常用 q=2q=2q=2(便于计算),但此时仅为半度量(三角不等式不严格成立)。
总结
该论文提出的 FGW 距离 为结构化数据(尤其是图)的度量学习提供了统一、灵活、理论扎实 的新范式。它成功地将最优传输理论拓展到联合特征-结构对齐 的场景,在图分类、聚类、插值等任务上展现出强大性能。然而,其计算代价高、依赖手工结构、优化非凸 等问题限制了其在大规模图或端到端深度学习中的直接应用。未来工作可探索FGW 的正则化/熵松弛版本 、与图神经网络的联合训练 ,以及可学习结构度量的内嵌机制。