ICML-2019《Optimal Transport for structured data with application on graphs》


二、核心思想

该论文提出了一种新型的最优传输(Optimal Transport, OT)距离 ,称为 Fused Gromov-Wasserstein(FGW)距离 ,旨在同时利用图结构信息节点特征信息,对结构化数据(尤其是图)进行度量学习。

传统方法如:

  • Wasserstein 距离:仅比较节点特征(需嵌入在相同空间);
  • Gromov-Wasserstein 距离:仅比较结构(通过距离矩阵对齐,不依赖同一特征空间);

但都无法联合建模结构与特征 。FGW 的核心在于融合两者,构建一个统一的 OT 框架,适用于任意结构化对象(如带标签图、时间序列、树等),且支持不同大小、不同节点数的图之间的比较。


三、目标函数

给定两个带特征与结构的图:

  • 图 G1G_1G1:概率测度 μ=∑i=1nhiδ(xi,ai)\mu = \sum_{i=1}^n h_i \delta_{(x_i, a_i)}μ=∑i=1nhiδ(xi,ai)
  • 图 G2G_2G2:概率测度 ν=∑j=1mgjδ(yj,bj)\nu = \sum_{j=1}^m g_j \delta_{(y_j, b_j)}ν=∑j=1mgjδ(yj,bj)

其中:

  • ai∈Ωfa_i \in \Omega_fai∈Ωf 为节点特征,xix_ixi 为结构嵌入;
  • h∈Σnh \in \Sigma_nh∈Σn,g∈Σmg \in \Sigma_mg∈Σm 为节点权重(概率直方图);
  • C1(i,k)=C(xi,xk)C_1(i,k) = C(x_i, x_k)C1(i,k)=C(xi,xk)、C2(j,l)=C(yj,yl)C_2(j,l) = C(y_j, y_l)C2(j,l)=C(yj,yl) 为结构相似性矩阵(如最短路径距离);
  • MAB(i,j)=d(ai,bj)M_{AB}(i,j) = d(a_i, b_j)MAB(i,j)=d(ai,bj) 为特征距离矩阵(如 ℓ2\ell^2ℓ2 距离)。

定义 FGW 距离如下:

FGWq,α(μ,ν)=min⁡π∈Π(h,g)Eq(MAB,C1,C2,π) \mathrm{FGW}{q,\alpha}(\mu, \nu) = \min{\pi \in \Pi(h, g)} E_q(M_{AB}, C_1, C_2, \pi) FGWq,α(μ,ν)=π∈Π(h,g)minEq(MAB,C1,C2,π)

其中耦合集 Π(h,g)={π∈R+n×m:π1m=h,π⊤1n=g}\Pi(h,g) = \{ \pi \in \mathbb{R}_+^{n \times m} : \pi \mathbf{1}_m = h, \pi^\top \mathbf{1}_n = g \}Π(h,g)={π∈R+n×m:π1m=h,π⊤1n=g},

目标函数为:

Eq(MAB,C1,C2,π)=∑i,j,k,l[(1−α)d(ai,bj)q+α∣C1(i,k)−C2(j,l)∣q]πijπkl E_q(M_{AB}, C_1, C_2, \pi) = \sum_{i,j,k,l} \left[ (1 - \alpha) d(a_i, b_j)^q + \alpha |C_1(i,k) - C_2(j,l)|^q \right] \pi_{ij} \pi_{kl} Eq(MAB,C1,C2,π)=i,j,k,l∑[(1−α)d(ai,bj)q+α∣C1(i,k)−C2(j,l)∣q]πijπkl

等价写成张量形式:

Eq=⟨(1−α)MABq+αL(C1,C2)q⊗π,  π⟩ E_q = \langle (1 - \alpha) M_{AB}^q + \alpha \mathcal{L}(C_1, C_2)^q \otimes \pi,\; \pi \rangle Eq=⟨(1−α)MABq+αL(C1,C2)q⊗π,π⟩

其中 Li,j,k,l(C1,C2)=∣C1(i,k)−C2(j,l)∣\mathcal{L}_{i,j,k,l}(C_1, C_2) = |C_1(i,k) - C_2(j,l)|Li,j,k,l(C1,C2)=∣C1(i,k)−C2(j,l)∣,⊗\otimes⊗ 表示张量-矩阵收缩。

关键点 :这是二次型目标函数 (关于 π\piπ),包含了特征对齐项结构对齐项 ,由超参数 α∈[0,1]\alpha \in [0,1]α∈[0,1] 控制权衡。


四、目标函数的优化过程

1. 非凸二次规划问题

当 q=2q = 2q=2 时,可将目标函数重写为:

min⁡π∈Π(h,g)vec(π)⊤Q(α)vec(π)+vec(D(α))⊤vec(π) \min_{\pi \in \Pi(h,g)} \mathrm{vec}(\pi)^\top Q(\alpha) \mathrm{vec}(\pi) + \mathrm{vec}(D(\alpha))^\top \mathrm{vec}(\pi) π∈Π(h,g)minvec(π)⊤Q(α)vec(π)+vec(D(α))⊤vec(π)

其中:

  • Q(α)=−2α(C2⊗KC1)Q(\alpha) = -2\alpha (C_2 \otimes_K C_1)Q(α)=−2α(C2⊗KC1)(Kronecker 积),
  • D(α)=(1−α)MABD(\alpha) = (1 - \alpha) M_{AB}D(α)=(1−α)MAB。

该问题关于 π\piπ 是非凸二次规划 (因为 QQQ 通常非正定)。

2. 条件梯度法(Conditional Gradient, CG)

采用 Frank-Wolfe 类算法(即条件梯度法)迭代求解:

  • 步骤 1 :初始化 π(0)=hg⊤\pi^{(0)} = h g^\topπ(0)=hg⊤
  • 步骤 2 :在第 ttt 步,计算梯度:
    G(t)=(1−α)MABq+2α[L(C1,C2)q⊗π(t−1)] G^{(t)} = (1 - \alpha) M_{AB}^q + 2\alpha \left[ \mathcal{L}(C_1, C_2)^q \otimes \pi^{(t-1)} \right] G(t)=(1−α)MABq+2α[L(C1,C2)q⊗π(t−1)]
    当 q=2q = 2q=2 时,可高效计算为 O(mn2+m2n)O(mn^2 + m^2n)O(mn2+m2n)。
  • 步骤 3 :求解线性子问题:
    π~(t)=arg⁡min⁡π∈Π(h,g)⟨G(t),π⟩ \tilde{\pi}^{(t)} = \arg\min_{\pi \in \Pi(h,g)} \langle G^{(t)}, \pi \rangle π~(t)=argπ∈Π(h,g)min⟨G(t),π⟩
    这是一个标准的线性最优传输问题,可用 Sinkhorn 或网络流算法求解。
  • 步骤 4 :线搜索确定步长 τ(t)∈[0,1]\tau^{(t)} \in [0,1]τ(t)∈[0,1],更新:
    π(t)=(1−τ(t))π(t−1)+τ(t)π~(t) \pi^{(t)} = (1 - \tau^{(t)}) \pi^{(t-1)} + \tau^{(t)} \tilde{\pi}^{(t)} π(t)=(1−τ(t))π(t−1)+τ(t)π~(t)

线搜索针对二次函数 f(τ)=E2(π(t−1)+τ(π~(t)−π(t−1)))f(\tau) = E_2(\pi^{(t-1)} + \tau (\tilde{\pi}^{(t)} - \pi^{(t-1)}))f(τ)=E2(π(t−1)+τ(π~(t)−π(t−1))) 进行解析最小化(见 Algorithm 2)。

收敛性 :虽然目标非凸,但 CG 能收敛到一阶平稳点(Lacoste-Julien, 2016)。


五、主要贡献点

  1. 提出 FGW 距离 :首个能同时融合节点特征与图结构的 OT 距离,适用于任意结构化数据。
  2. 理论性质完备
    • 当 α→0\alpha \to 0α→0,退化为 Wasserstein 距离;
    • 当 α→1\alpha \to 1α→1,退化为 Gromov-Wasserstein 距离;
    • 对 q=1q=1q=1,FGW 是度量(满足三角不等式、对称性、恒等性)。
  3. 支持图上的 Frechét 均值(barycenter)计算:可用于聚类、插值、生成等任务。
  4. 实验验证
    • 在 12 个图分类基准上,FGW 显著优于图核方法(如 WLK、SPK)与图神经网络(如 PSCN);
    • 在无标签图上,仅用 GW 已优于传统核方法;
    • 首次实现端到端的图聚类与簇中心可视化(无需 pre-image 问题)。

六、算法实现细节

论文使用 Python Optimal Transport (POT) 工具箱实现:

  • FGW 距离计算 (Algorithm 1):
    • 使用条件梯度法;
    • 每次迭代需:
      • 计算梯度 GGG(复杂度 O(mn2+m2n)O(mn^2 + m^2n)O(mn2+m2n));
      • 求解一个经典 OT 问题(可用线性规划或正则化 OT);
      • 线搜索(解析解,见 Algorithm 2)。
  • FGW Barycenter 计算 (用于聚类):
    • 采用块坐标下降法 (Block Coordinate Descent, BCD):
      • 固定 (C,A)(C, A)(C,A),更新 πk\pi_kπk:等价于计算 SSS 次 FGW;
      • 固定 πk\pi_kπk,更新结构矩阵 CCC:
        C←1hh⊤∑kλkπk⊤Ckπk C \leftarrow \frac{1}{h h^\top} \sum_k \lambda_k \pi_k^\top C_k \pi_k C←hh⊤1k∑λkπk⊤Ckπk
      • 固定 πk\pi_kπk,更新特征 AAA:
        A←∑kλkBkπk⊤diag(1/h) A \leftarrow \sum_k \lambda_k B_k \pi_k^\top \mathrm{diag}(1/h) A←k∑λkBkπk⊤diag(1/h)

整个框架完全无监督 ,可嵌入 SVM(使用 K=exp⁡(−γ⋅FGW)K = \exp(-\gamma \cdot \mathrm{FGW})K=exp(−γ⋅FGW) 核)、k-NN、t-SNE 等。


七、局限性分析

尽管 FGW 是一项重要突破,但仍存在以下局限:

  1. 计算复杂度高

    • 每次梯度计算需 O(mn2+m2n)O(mn^2 + m^2n)O(mn2+m2n),对大规模图(如 n>1000n>1000n>1000)不友好;
    • 二次规划求解难以扩展到百万级节点图。
  2. 依赖手工设计的结构度量

    • 论文默认使用最短路径距离 作为 CCC,但该选择未必最优;
    • 未探索可学习的结构表示 (如通过 GNN 提取 CCC)。
  3. 非凸优化的局部最优问题

    • 目标函数非凸,CG 只能保证收敛到局部极小值
    • 初始值敏感,可能影响最终距离的稳定性。
  4. 未考虑边特征

    • 模型仅处理节点特征 + 结构矩阵 ,无法直接处理带权边特征有向图 (除非重新定义 CCC)。
  5. 超参数调优负担

    • 需交叉验证 α\alphaα(结构-特征权衡)、γ\gammaγ(核宽度)、qqq(距离阶数)等;
    • 在实际应用中调参成本较高。
  6. 理论仅对 q=1q=1q=1 保证度量性质

    • 实践中常用 q=2q=2q=2(便于计算),但此时仅为半度量(三角不等式不严格成立)。

总结

该论文提出的 FGW 距离 为结构化数据(尤其是图)的度量学习提供了统一、灵活、理论扎实 的新范式。它成功地将最优传输理论拓展到联合特征-结构对齐 的场景,在图分类、聚类、插值等任务上展现出强大性能。然而,其计算代价高、依赖手工结构、优化非凸 等问题限制了其在大规模图或端到端深度学习中的直接应用。未来工作可探索FGW 的正则化/熵松弛版本与图神经网络的联合训练 ,以及可学习结构度量的内嵌机制。

相关推荐
攻城狮7号1 小时前
告别显存焦虑:阿里开源 Z-Image 如何用 6B 参数立足AI 绘画时代
人工智能·ai 绘画·qwen-image·z-image-turbo·阿里开源模型
sin_hielo1 小时前
leetcode 1590
数据结构·算法·leetcode
阿杰学AI1 小时前
AI核心知识24——大语言模型之AI 幻觉(简洁且通俗易懂版)
人工智能·ai·语言模型·aigc·hallucination·ai幻觉
AI_56781 小时前
AI知识库如何重塑服务体验
大数据·人工智能
吃着火锅x唱着歌1 小时前
LeetCode 2748.美丽下标对的数目
数据结构·算法·leetcode
做怪小疯子1 小时前
LeetCode 热题 100——二叉树——二叉树的中序遍历
算法·leetcode·职场和发展
公众号-架构师汤师爷1 小时前
n8n工作流实战:让DeepSeek一键拆解100篇公众号爆文,扒得底裤都不剩(建议收藏)
人工智能·智能体·n8n
一只乔哇噻1 小时前
java后端工程师+AI大模型进修ing(研一版‖day57)
java·开发语言·人工智能·算法·语言模型
张较瘦_1 小时前
[论文阅读] AI + 编码 | Agint:让LLM编码代理告别“混乱”,用图编译打通自然语言到可执行代码的任督二脉
论文阅读·人工智能