ICML-2019《Optimal Transport for structured data with application on graphs》

二、核心思想

该论文提出了一种新型的最优传输（Optimal Transport, OT）距离 ，称为 Fused Gromov-Wasserstein（FGW）距离 ，旨在同时利用图结构信息 与节点特征信息，对结构化数据（尤其是图）进行度量学习。

传统方法如：

Wasserstein 距离：仅比较节点特征（需嵌入在相同空间）；
Gromov-Wasserstein 距离：仅比较结构（通过距离矩阵对齐，不依赖同一特征空间）；

但都无法联合建模结构与特征 。FGW 的核心在于融合两者，构建一个统一的 OT 框架，适用于任意结构化对象（如带标签图、时间序列、树等），且支持不同大小、不同节点数的图之间的比较。

三、目标函数

给定两个带特征与结构的图：

图 G1G_1G1：概率测度 μ=∑i=1nhiδ(xi,ai)\mu = \sum_{i=1}^n h_i \delta_{(x_i, a_i)}μ=∑i=1nhiδ(xi,ai)
图 G2G_2G2：概率测度 ν=∑j=1mgjδ(yj,bj)\nu = \sum_{j=1}^m g_j \delta_{(y_j, b_j)}ν=∑j=1mgjδ(yj,bj)

其中：

ai∈Ωfa_i \in \Omega_fai∈Ωf 为节点特征，xix_ixi 为结构嵌入；
h∈Σnh \in \Sigma_nh∈Σn，g∈Σmg \in \Sigma_mg∈Σm 为节点权重（概率直方图）；
C1(i,k)=C(xi,xk)C_1(i,k) = C(x_i, x_k)C1(i,k)=C(xi,xk)、C2(j,l)=C(yj,yl)C_2(j,l) = C(y_j, y_l)C2(j,l)=C(yj,yl) 为结构相似性矩阵（如最短路径距离）；
MAB(i,j)=d(ai,bj)M_{AB}(i,j) = d(a_i, b_j)MAB(i,j)=d(ai,bj) 为特征距离矩阵（如 ℓ2\ell^2ℓ2 距离）。

定义 FGW 距离如下：

FGWq,α(μ,ν)=min⁡π∈Π(h,g)Eq(MAB,C1,C2,π) \mathrm{FGW}{q,\alpha}(\mu, \nu) = \min{\pi \in \Pi(h, g)} E_q(M_{AB}, C_1, C_2, \pi) FGWq,α(μ,ν)=π∈Π(h,g)minEq(MAB,C1,C2,π)

其中耦合集 Π(h,g)={π∈R+n×m:π1m=h,π⊤1n=g}\Pi(h,g) = \{ \pi \in \mathbb{R}_+^{n \times m} : \pi \mathbf{1}_m = h, \pi^\top \mathbf{1}_n = g \}Π(h,g)={π∈R+n×m:π1m=h,π⊤1n=g}，

目标函数为：

Eq(MAB,C1,C2,π)=∑i,j,k,l[(1−α)d(ai,bj)q+α∣C1(i,k)−C2(j,l)∣q]πijπkl E_q(M_{AB}, C_1, C_2, \pi) = \sum_{i,j,k,l} \left[ (1 - \alpha) d(a_i, b_j)^q + \alpha |C_1(i,k) - C_2(j,l)|^q \right] \pi_{ij} \pi_{kl} Eq(MAB,C1,C2,π)=i,j,k,l∑[(1−α)d(ai,bj)q+α∣C1(i,k)−C2(j,l)∣q]πijπkl

等价写成张量形式：

Eq=⟨(1−α)MABq+αL(C1,C2)q⊗π, π⟩ E_q = \langle (1 - \alpha) M_{AB}^q + \alpha \mathcal{L}(C_1, C_2)^q \otimes \pi,\; \pi \rangle Eq=⟨(1−α)MABq+αL(C1,C2)q⊗π,π⟩

其中 Li,j,k,l(C1,C2)=∣C1(i,k)−C2(j,l)∣\mathcal{L}_{i,j,k,l}(C_1, C_2) = |C_1(i,k) - C_2(j,l)|Li,j,k,l(C1,C2)=∣C1(i,k)−C2(j,l)∣，⊗\otimes⊗ 表示张量-矩阵收缩。

关键点 ：这是二次型目标函数 （关于 π\piπ），包含了特征对齐项 与结构对齐项 ，由超参数 α∈[0,1]\alpha \in [0,1]α∈[0,1] 控制权衡。

四、目标函数的优化过程

1. 非凸二次规划问题

当 q=2q = 2q=2 时，可将目标函数重写为：

min⁡π∈Π(h,g)vec(π)⊤Q(α)vec(π)+vec(D(α))⊤vec(π) \min_{\pi \in \Pi(h,g)} \mathrm{vec}(\pi)^\top Q(\alpha) \mathrm{vec}(\pi) + \mathrm{vec}(D(\alpha))^\top \mathrm{vec}(\pi) π∈Π(h,g)minvec(π)⊤Q(α)vec(π)+vec(D(α))⊤vec(π)

其中：

Q(α)=−2α(C2⊗KC1)Q(\alpha) = -2\alpha (C_2 \otimes_K C_1)Q(α)=−2α(C2⊗KC1)（Kronecker 积），
D(α)=(1−α)MABD(\alpha) = (1 - \alpha) M_{AB}D(α)=(1−α)MAB。

该问题关于 π\piπ 是非凸二次规划 （因为 QQQ 通常非正定）。

2. 条件梯度法（Conditional Gradient, CG）

采用 Frank-Wolfe 类算法（即条件梯度法）迭代求解：

步骤 1 ：初始化 π(0)=hg⊤\pi^{(0)} = h g^\topπ(0)=hg⊤
步骤 2 ：在第 ttt 步，计算梯度：
G(t)=(1−α)MABq+2α[L(C1,C2)q⊗π(t−1)] G^{(t)} = (1 - \alpha) M_{AB}^q + 2\alpha \left[ \mathcal{L}(C_1, C_2)^q \otimes \pi^{(t-1)} \right] G(t)=(1−α)MABq+2α[L(C1,C2)q⊗π(t−1)]
当 q=2q = 2q=2 时，可高效计算为 O(mn2+m2n)O(mn^2 + m^2n)O(mn2+m2n)。
步骤 3 ：求解线性子问题：
π~(t)=arg⁡min⁡π∈Π(h,g)⟨G(t),π⟩ \tilde{\pi}^{(t)} = \arg\min_{\pi \in \Pi(h,g)} \langle G^{(t)}, \pi \rangle π~(t)=argπ∈Π(h,g)min⟨G(t),π⟩
这是一个标准的线性最优传输问题，可用 Sinkhorn 或网络流算法求解。
步骤 4 ：线搜索确定步长 τ(t)∈[0,1]\tau^{(t)} \in [0,1]τ(t)∈[0,1]，更新：
π(t)=(1−τ(t))π(t−1)+τ(t)π~(t) \pi^{(t)} = (1 - \tau^{(t)}) \pi^{(t-1)} + \tau^{(t)} \tilde{\pi}^{(t)} π(t)=(1−τ(t))π(t−1)+τ(t)π~(t)

线搜索针对二次函数 f(τ)=E2(π(t−1)+τ(π~(t)−π(t−1)))f(\tau) = E_2(\pi^{(t-1)} + \tau (\tilde{\pi}^{(t)} - \pi^{(t-1)}))f(τ)=E2(π(t−1)+τ(π~(t)−π(t−1))) 进行解析最小化（见 Algorithm 2）。

收敛性 ：虽然目标非凸，但 CG 能收敛到一阶平稳点（Lacoste-Julien, 2016）。

五、主要贡献点

提出 FGW 距离 ：首个能同时融合节点特征与图结构的 OT 距离，适用于任意结构化数据。
理论性质完备 ：
- 当 α→0\alpha \to 0α→0，退化为 Wasserstein 距离；
- 当 α→1\alpha \to 1α→1，退化为 Gromov-Wasserstein 距离；
- 对 q=1q=1q=1，FGW 是度量（满足三角不等式、对称性、恒等性）。
支持图上的 Frechét 均值（barycenter）计算：可用于聚类、插值、生成等任务。
实验验证 ：
- 在 12 个图分类基准上，FGW 显著优于图核方法（如 WLK、SPK）与图神经网络（如 PSCN）；
- 在无标签图上，仅用 GW 已优于传统核方法；
- 首次实现端到端的图聚类与簇中心可视化（无需 pre-image 问题）。

六、算法实现细节

论文使用 Python Optimal Transport (POT) 工具箱实现：

FGW 距离计算 （Algorithm 1）：
- 使用条件梯度法；
- 每次迭代需：
  - 计算梯度 GGG（复杂度 O(mn2+m2n)O(mn^2 + m^2n)O(mn2+m2n)）；
  - 求解一个经典 OT 问题（可用线性规划或正则化 OT）；
  - 线搜索（解析解，见 Algorithm 2）。
FGW Barycenter 计算 （用于聚类）：
- 采用块坐标下降法 （Block Coordinate Descent, BCD）：
  - 固定 (C,A)(C, A)(C,A)，更新 πk\pi_kπk：等价于计算 SSS 次 FGW；
  - 固定 πk\pi_kπk，更新结构矩阵 CCC：
    C←1hh⊤∑kλkπk⊤Ckπk C \leftarrow \frac{1}{h h^\top} \sum_k \lambda_k \pi_k^\top C_k \pi_k C←hh⊤1k∑λkπk⊤Ckπk
  - 固定 πk\pi_kπk，更新特征 AAA：
    A←∑kλkBkπk⊤diag(1/h) A \leftarrow \sum_k \lambda_k B_k \pi_k^\top \mathrm{diag}(1/h) A←k∑λkBkπk⊤diag(1/h)

整个框架完全无监督 ，可嵌入 SVM（使用 K=exp⁡(−γ⋅FGW)K = \exp(-\gamma \cdot \mathrm{FGW})K=exp(−γ⋅FGW) 核）、k-NN、t-SNE 等。

七、局限性分析

尽管 FGW 是一项重要突破，但仍存在以下局限：

计算复杂度高：
- 每次梯度计算需 O(mn2+m2n)O(mn^2 + m^2n)O(mn2+m2n)，对大规模图（如 n>1000n>1000n>1000）不友好；
- 二次规划求解难以扩展到百万级节点图。
依赖手工设计的结构度量：
- 论文默认使用最短路径距离 作为 CCC，但该选择未必最优；
- 未探索可学习的结构表示 （如通过 GNN 提取 CCC）。
非凸优化的局部最优问题：
- 目标函数非凸，CG 只能保证收敛到局部极小值；
- 初始值敏感，可能影响最终距离的稳定性。
未考虑边特征：
- 模型仅处理节点特征 + 结构矩阵 ，无法直接处理带权边特征 或有向图 （除非重新定义 CCC）。
超参数调优负担：
- 需交叉验证 α\alphaα（结构-特征权衡）、γ\gammaγ（核宽度）、qqq（距离阶数）等；
- 在实际应用中调参成本较高。
理论仅对 q=1q=1q=1 保证度量性质：
- 实践中常用 q=2q=2q=2（便于计算），但此时仅为半度量（三角不等式不严格成立）。

总结

该论文提出的 FGW 距离 为结构化数据（尤其是图）的度量学习提供了统一、灵活、理论扎实 的新范式。它成功地将最优传输理论拓展到联合特征-结构对齐 的场景，在图分类、聚类、插值等任务上展现出强大性能。然而，其计算代价高、依赖手工结构、优化非凸 等问题限制了其在大规模图或端到端深度学习中的直接应用。未来工作可探索FGW 的正则化/熵松弛版本 、与图神经网络的联合训练 ，以及可学习结构度量的内嵌机制。