核心思想
该论文提出了一个基于最优传输(optimal transportation) 理论的新型聚类方法,称为变分Wasserstein聚类(Variational Wasserstein Clustering, VWC)。其核心思想有三点:
-
建立最优传输与k-means聚类的联系:作者指出k-means聚类问题本质上等价于求解一个特殊的Wasserstein重心问题(Wasserstein barycenter problem),当目标是一个单变量测度时,这被称为Wasserstein均值问题(Wasserstein means problem)。
-
采用Monge-Brenier最优传输视角 :与主流的Kantorovich最优传输方法不同,本文采用Monge-Brenier方法,将最优传输视为测度保持映射(measure-preserving mapping),即一个样本不能被分割到多个位置,这与k-means聚类的特性更加吻合。
-
利用power diagrams作为传输计划:通过变分原理(variational principle)求解最优传输问题,使用power Voronoi图作为传输计划,将任意域聚集成固定数量的簇,同时在移动簇中心点的过程中保持最小聚类能量。
这种方法的优势在于:(1)它是局部微分同胚;(2)不需要预先计算成对距离;(3)避免在乘积空间中搜索,从而大幅减少参数数量。
目标函数
论文的目标函数基于2-Wasserstein距离,旨在找到一组稀疏的簇中心Y(y,ν)Y(y,\nu)Y(y,ν),使其与目标分布X(x,μ)X(x,\mu)X(x,μ)之间的Wasserstein距离最小化:
infY∈P(M)W22(X,Y)=infY∈P(M),π∈P(M×M)∑yj=π(xi)μi∥xi−yj∥2\inf_{Y \in P(M)} W_2^2(X, Y) = \inf_{Y \in P(M), \pi \in P(M \times M)} \sum_{y_j = \pi(x_i)} \mu_i \|x_i - y_j\|^2Y∈P(M)infW22(X,Y)=Y∈P(M),π∈P(M×M)infyj=π(xi)∑μi∥xi−yj∥2
其中P(M)P(M)P(M)表示度量空间MMM上的所有Borel概率测度集合。
在固定测度ν\nuν的情况下,该问题等价于:
f(h,y)=∑j=1k∑xi∈Vj(h)μi∥xi−yj∥2f(h, y) = \sum_{j=1}^k \sum_{x_i \in V_j(h)} \mu_i \|x_i - y_j\|^2f(h,y)=j=1∑kxi∈Vj(h)∑μi∥xi−yj∥2
这里:
- h=(h1,...,hk)Th = (h_1, \dots, h_k)^Th=(h1,...,hk)T是power diagram的参数向量
- y=(y1,...,yk)y = (y_1, \dots, y_k)y=(y1,...,yk)是簇中心
- Vj(h)V_j(h)Vj(h)是由power diagram定义的第jjj个Voronoi单元
- μi\mu_iμi是样本xix_ixi的测度
power Voronoi图的定义为:
Vj≜{m∈M∣∥m−yj∥2−rj2≤∥m−yi∥2−ri2},∀j≠iV_j \triangleq \{m \in M \mid \|m - y_j\|^2 - r_j^2 \leq \|m - y_i\|^2 - r_i^2\}, \forall j \neq iVj≜{m∈M∣∥m−yj∥2−rj2≤∥m−yi∥2−ri2},∀j=i
其中rjr_jrj与单元的总质量相关。
目标函数的优化过程
论文提出了迭代测度保持映射(Iterative Measure-Preserving Mapping) 算法来优化目标函数,该算法交替执行两个步骤:
1. 固定簇中心yyy,更新power diagram(即更新hhh)
通过求解变分最优传输问题,最小化能量函数:
E(h)=∫Ωθh(x)μ(x)dx−∑j=1kνjhjE(h) = \int_{\Omega} \theta_h(x)\mu(x)dx - \sum_{j=1}^k \nu_j h_jE(h)=∫Ωθh(x)μ(x)dx−j=1∑kνjhj
其中θh(x)=max{⟨x,yj⟩+hj}\theta_h(x) = \max\{\langle x, y_j \rangle + h_j\}θh(x)=max{⟨x,yj⟩+hj}是一个分段线性凸函数。
使用牛顿法求解:
- 梯度:∇E(h)=(w1(h)−ν1,...,wk(h)−νk)T\nabla E(h) = (w_1(h) - \nu_1, \dots, w_k(h) - \nu_k)^T∇E(h)=(w1(h)−ν1,...,wk(h)−νk)T
- Hessian矩阵:
H=∂2E(h)∂hi∂hj={∑l∫filμ(x)dx∥yl−yi∥,i=j,∀l,s.t. fil≠∅−∫fijμ(x)dx∥yj−yi∥,i≠j,fij≠∅0,i≠j,fij=∅H = \frac{\partial^2 E(h)}{\partial h_i \partial h_j} = \begin{cases} \sum_l \frac{\int_{f_{il}} \mu(x)dx}{\|y_l - y_i\|}, & i = j, \forall l, \text{s.t. } f_{il} \neq \emptyset \\ -\frac{\int_{f_{ij}} \mu(x)dx}{\|y_j - y_i\|}, & i \neq j, f_{ij} \neq \emptyset \\ 0, & i \neq j, f_{ij} = \emptyset \end{cases}H=∂hi∂hj∂2E(h)=⎩ ⎨ ⎧∑l∥yl−yi∥∫filμ(x)dx,−∥yj−yi∥∫fijμ(x)dx,0,i=j,∀l,s.t. fil=∅i=j,fij=∅i=j,fij=∅
其中wj(h)=∑x∈Vj(h)μ(x)w_j(h) = \sum_{x \in V_j(h)} \mu(x)wj(h)=∑x∈Vj(h)μ(x)是第jjj个单元的总质量,fijf_{ij}fij是相邻单元的交集。
更新规则:h(t+1)←h(t)−λH−1∇E(h)h^{(t+1)} \leftarrow h^{(t)} - \lambda H^{-1} \nabla E(h)h(t+1)←h(t)−λH−1∇E(h)
2. 固定power diagram(即固定hhh),更新簇中心yyy
更新规则为加权平均:
yj(t+1)=∑x∈Vjμixi(t)∑x∈Vjμiy_j^{(t+1)} = \frac{\sum_{x \in V_j} \mu_i x_i^{(t)}}{\sum_{x \in V_j} \mu_i}yj(t+1)=∑x∈Vjμi∑x∈Vjμixi(t)
论文证明了该算法具有以下性质:
- 单调收敛性:每次迭代都减少目标函数值
- 有限步收敛:在有限次迭代后收敛
- 唯一解:产生唯一的局部解
主要贡献点
-
理论贡献:建立了最优传输与k-means聚类之间的理论联系,从Monge-Brenier角度重新解释了k-means聚类问题。
-
算法创新:提出了变分Wasserstein聚类算法,利用power Voronoi图同时优化Wasserstein距离和聚类质量,实现了测度保持映射。
-
计算效率:相比基于Kantorovich最优传输的方法,避免了在乘积空间中搜索,大大减少了参数数量和计算复杂度。
-
多领域应用:成功将该方法应用于域适应、重新网格化和学习表示三个不同领域,展示了其广泛适用性。
-
理论保证:证明了算法的收敛性和解的唯一性,为方法的可靠性提供了理论支持。
实验结果
论文在三个不同任务上验证了VWC方法的有效性:
1. 合成数据上的域适应
- 实验设置:源域包含两个高斯分布(各30个样本),目标域包含两个不同均值和方差的高斯分布(各1500个样本)
- 结果 :
- VWC在RBF核上的分类准确率达到99.31%,略高于D2(99.25%)和JDOT(99.23%)
- 传统k-means++在没有先验知识(如线性偏移)的情况下表现极差(准确率仅50%)
- VWC不需要预先知道两个域之间的关系,即可有效进行知识迁移
2. 三角网格变形
- 实验设置:将人脸表面的三角网格重新分布,使顶点向高曲率区域移动
- 结果 :
- 鼻子尖端等高曲率区域顶点更密集,额头等平坦区域顶点更稀疏
- 通过将曲面映射到单位圆盘,应用VWC,再映射回原始曲面,实现了基于曲率的自适应网格划分
- 该方法可用于计算机图形学中的网格优化
3. 脑图像表示学习
- 实验设置:在100个MRI脑图像上进行实验(50个阿尔茨海默病AD,50个正常对照NC)
- 结果 :
- 使用VWC学习的低维表示在SVM分类中表现显著优于PCA
- 随着中心点数量增加,VWC的分类准确率稳定提高,而PCA表现波动
- 验证了VWC在医学图像分析中的潜力,特别是对AD相关脑萎缩的表征能力
算法实现过程
VWC的完整算法流程如下:
1. 预处理阶段
- 初始化 :从已知分布中采样得到初始测度ν\nuν
- 域统一 :如果源域MMM和目标域NNN不同,使用调和映射(Harmonic mapping)将它们映射到凸规范空间(通常是欧氏空间RnR^nRn或单位圆盘DnD^nDn)
- 例如:将3D脑表面映射到单位球
2. 迭代测度保持映射
(a) 更新Voronoi划分(变分最优传输)
- 计算当前hhh对应的power diagram VVV
- 计算每个单元的权重w(h)={∑m∈Vjμ(m)}w(h) = \{\sum_{m \in V_j} \mu(m)\}w(h)={∑m∈Vjμ(m)}
- 计算能量函数的梯度∇E(h)\nabla E(h)∇E(h)和Hessian矩阵HHH
- 更新h←h−λH−1∇E(h)h \leftarrow h - \lambda H^{-1} \nabla E(h)h←h−λH−1∇E(h)
- 重复直到∥∇E(h)∥<ϵ\|\nabla E(h)\| < \epsilon∥∇E(h)∥<ϵ
(b) 更新簇中心
- 对每个簇jjj,计算新的中心点:
yj=∑x∈Vjμixi∑x∈Vjμiy_j = \frac{\sum_{x \in V_j} \mu_i x_i}{\sum_{x \in V_j} \mu_i}yj=∑x∈Vjμi∑x∈Vjμixi - 这是基于测度μi\mu_iμi的加权平均
© 收敛判断
- 重复(a)和(b)步骤,直到簇中心yyy的变化小于阈值
3. 输出结果
- 返回测度保持映射π:X→Y\pi: X \rightarrow Yπ:X→Y,表示为(y,V)(y, V)(y,V)
- 其中yyy是最终的簇中心,VVV是对应的power Voronoi图
实现细节
- 使用Voro++库计算Voronoi图
- 对于高维数据,可能面临计算和内存挑战
- 可通过梯度下降替代完整Voronoi图计算,只需相邻单元交集来计算Hessian
- 每个样本的分配可通过最近邻搜索确定
总结
VWC方法将最优传输理论与k-means聚类巧妙结合,提供了一种全新的聚类视角。其核心优势在于能够同时优化聚类质量和Wasserstein距离,实现测度保持的映射。该方法在域适应、网格优化和医学图像分析等任务中展示了出色的性能,特别是对于需要保持分布特性的应用场景。相比传统聚类方法和基于Kantorovich最优传输的方法,VWC在计算效率和理论保证方面都有明显优势,为聚类分析和分布匹配问题提供了新的解决方案。
以下是对该公式的详细推导与解释:
1. 幂图(Power Diagram)的定义
给定一组中心点 {y1,y2,...,yk}⊂Rn\{y_1, y_2, \dots, y_k\} \subset \mathbb{R}^n{y1,y2,...,yk}⊂Rn 和权重 {r12,r22,...,rk2}\{r_1^2, r_2^2, \dots, r_k^2\}{r12,r22,...,rk2},幂图(Power Diagram)将空间 Rn\mathbb{R}^nRn 划分为 kkk 个区域 V1,V2,...,VkV_1, V_2, \dots, V_kV1,V2,...,Vk,其中:
Vj={m∈M | ∥m−yj∥2−rj2≤∥m−yi∥2−ri2,∀i≠j}. V_j = \left\{ m \in M \,\middle|\, \|m - y_j\|^2 - r_j^2 \leq \|m - y_i\|^2 - r_i^2, \quad \forall i \neq j \right\}. Vj={m∈M ∥m−yj∥2−rj2≤∥m−yi∥2−ri2,∀i=j}.
每个区域 VjV_jVj 包含所有点 mmm,使得对任意其他中心 yiy_iyi,加权距离 ∥m−yj∥2−rj2\|m - y_j\|^2 - r_j^2∥m−yj∥2−rj2 不大于 ∥m−yi∥2−ri2\|m - y_i\|^2 - r_i^2∥m−yi∥2−ri2。
2. 不等式的推导
从幂图的定义出发,我们推导出更简洁的线性不等式形式:
步骤1:展开平方项
对任意 i≠ji \neq ji=j,比较 ∥m−yj∥2−rj2\|m - y_j\|^2 - r_j^2∥m−yj∥2−rj2 和 ∥m−yi∥2−ri2\|m - y_i\|^2 - r_i^2∥m−yi∥2−ri2:
∥m−yj∥2−rj2≤∥m−yi∥2−ri2. \|m - y_j\|^2 - r_j^2 \leq \|m - y_i\|^2 - r_i^2. ∥m−yj∥2−rj2≤∥m−yi∥2−ri2.
展开平方项:
(m−yj)T(m−yj)−rj2≤(m−yi)T(m−yi)−ri2. (m - y_j)^T(m - y_j) - r_j^2 \leq (m - y_i)^T(m - y_i) - r_i^2. (m−yj)T(m−yj)−rj2≤(m−yi)T(m−yi)−ri2.
步骤2:化简表达式
展开后得到:
mTm−2mTyj+yjTyj−rj2≤mTm−2mTyi+yiTyi−ri2. m^T m - 2 m^T y_j + y_j^T y_j - r_j^2 \leq m^T m - 2 m^T y_i + y_i^T y_i - r_i^2. mTm−2mTyj+yjTyj−rj2≤mTm−2mTyi+yiTyi−ri2.
两边同时减去 mTmm^T mmTm,并整理:
−2mTyj+(yjTyj−rj2)≤−2mTyi+(yiTyi−ri2). -2 m^T y_j + (y_j^T y_j - r_j^2) \leq -2 m^T y_i + (y_i^T y_i - r_i^2). −2mTyj+(yjTyj−rj2)≤−2mTyi+(yiTyi−ri2).
步骤3:移项得到线性不等式
将含 mmm 的项移到左边,常数项移到右边:
−2mTyj+2mTyi≤(yiTyi−ri2)−(yjTyj−rj2). -2 m^T y_j + 2 m^T y_i \leq (y_i^T y_i - r_i^2) - (y_j^T y_j - r_j^2). −2mTyj+2mTyi≤(yiTyi−ri2)−(yjTyj−rj2).
提取公因子 222:
2mT(yi−yj)≤(yiTyi−ri2)−(yjTyj−rj2). 2 m^T (y_i - y_j) \leq (y_i^T y_i - r_i^2) - (y_j^T y_j - r_j^2). 2mT(yi−yj)≤(yiTyi−ri2)−(yjTyj−rj2).
两边除以 222,得到最终形式:
mTyj−12(yjTyj+rj2)≤mTyi−12(yiTyi+ri2). m^T y_j - \frac{1}{2}(y_j^T y_j + r_j^2) \leq m^T y_i - \frac{1}{2}(y_i^T y_i + r_i^2). mTyj−21(yjTyj+rj2)≤mTyi−21(yiTyi+ri2).
3. 几何意义
上述不等式可以看作是超平面分割的条件:
- 左端 :mTyj−12(yjTyj+rj2)m^T y_j - \frac{1}{2}(y_j^T y_j + r_j^2)mTyj−21(yjTyj+rj2) 是关于 mmm 的线性函数。
- 右端 :mTyi−12(yiTyi+ri2)m^T y_i - \frac{1}{2}(y_i^T y_i + r_i^2)mTyi−21(yiTyi+ri2) 同样是关于 mmm 的线性函数。
因此,每个不等式对应一个超平面:
mT(yj−yi)≤12(yiTyi−yjTyj+rj2−ri2). m^T (y_j - y_i) \leq \frac{1}{2}\left( y_i^T y_i - y_j^T y_j + r_j^2 - r_i^2 \right). mT(yj−yi)≤21(yiTyi−yjTyj+rj2−ri2).
这表明,幂图的每个区域 VjV_jVj 是由多个超平面分割出的凸多面体,因此整个幂图是凸分割。
4. 与分段线性凸函数的关系
根据文献[27](Aurenhammer, 1987),幂图与分段线性凸函数存在一一对应关系:
- 每个幂图区域 VjV_jVj 对应函数 uh(x)u_h(x)uh(x) 的一个线性片(affine piece)。
- 函数 uh(x)u_h(x)uh(x) 在区域 VjV_jVj 内的表达式为:
uh(x)=xTyj−12(yjTyj+rj2). u_h(x) = x^T y_j - \frac{1}{2}(y_j^T y_j + r_j^2). uh(x)=xTyj−21(yjTyj+rj2). - 因此,幂图是该分段线性凸函数的次微分分解(subdifferential decomposition)。
5. 应用场景
在论文《Variational Wasserstein Clustering》中,幂图被用于:
- 最优传输映射 :通过调整权重 rj2r_j^2rj2,将源分布 XXX 映射到目标分布 YYY。
- 聚类优化 :每个幂图区域 VjV_jVj 对应一个簇,簇中心 yjy_jyj 和权重 rj2r_j^2rj2 通过迭代优化确定,以最小化Wasserstein距离。
总结
该不等式揭示了幂图的线性超平面结构,并通过分段线性凸函数建立了理论联系。这一结果为变分Wasserstein聚类算法提供了关键工具,使得复杂的最优传输问题可以通过凸优化求解。
1. 核心概念解析
(a) 概率测度空间 P(M)\mathcal{P}(M)P(M)
- 定义 :P(M)\mathcal{P}(M)P(M) 是定义在度量空间 MMM 上的所有Borel概率测度的集合。
- 示例 :
- 离散测度:如 X=∑i=1nμiδxiX = \sum_{i=1}^n \mu_i \delta_{x_i}X=∑i=1nμiδxi(样本点 xix_ixi 的加权组合)。
- 连续测度:如高斯分布 N(μ,σ2)N(\mu, \sigma^2)N(μ,σ2)。
(b) 测度保持映射 TTT
- 定义 :若映射 T:X→YT: X \to YT:X→Y 满足:
μ(T−1(B))=ν(B),∀B⊂Y, \mu(T^{-1}(B)) = \nu(B), \quad \forall B \subset Y, μ(T−1(B))=ν(B),∀B⊂Y,
则称 TTT 是测度保持映射(measure-preserving mapping)。 - 几何意义 :将 XXX 的质量完美地"搬运"到 YYY,不增不减。
© 耦合(Coupling)
- 定义 :耦合 π\piπ 是 XXX 和 YYY 在乘积空间 M×MM \times MM×M 上的联合概率测度,其边缘分布为:
μ=π(⋅,M),ν=π(M,⋅). \mu = \pi(\cdot, M), \quad \nu = \pi(M, \cdot). μ=π(⋅,M),ν=π(M,⋅). - 物理意义 :π(x,y)\pi(x, y)π(x,y) 表示将质量从 xxx 运输到 yyy 的比例。
2. 最优传输问题
(a) 运输成本函数 c(x,y)c(x, y)c(x,y)
- 定义 :通常取为测地距离的 ppp 次幂 :
c(x,y)=d(x,y)p. c(x, y) = d(x, y)^p. c(x,y)=d(x,y)p. - 常见选择 :
- p=1p=1p=1:对应Earth Mover's Distance (EMD)。
- p=2p=2p=2:对应最常见的Wasserstein距离。
(b) Wasserstein距离的定义
Wp(μ,ν)=(infπ∈Π(μ,ν)∫M×Mc(x,y)dπ(x,y))1/p, W_p(\mu, \nu) = \left( \inf_{\pi \in \Pi(\mu, \nu)} \int_{M \times M} c(x, y) d\pi(x, y) \right)^{1/p}, Wp(μ,ν)=(π∈Π(μ,ν)inf∫M×Mc(x,y)dπ(x,y))1/p,
其中 Π(μ,ν)\Pi(\mu, \nu)Π(μ,ν) 是所有满足边缘约束的耦合集合。
- 物理意义 :WpW_pWp 是将分布 μ\muμ 转换为 ν\nuν 的最小平均运输成本。
- 关键性质 :
- 满足距离公理(非负性、同一性、对称性、三角不等式)。
- 对分布的形状和位置敏感,适合衡量高维数据差异。
3. Monge型与Kantorovich型最优传输
(a) Monge型传输
- 限制条件 :每个质量点 xxx 只能被映射到一个 yyy,即:
dπ(x,y)=dμ(x)δ[y=T(x)]. d\pi(x, y) = d\mu(x) \delta[y = T(x)]. dπ(x,y)=dμ(x)δ[y=T(x)]. - 目标函数 :
πTopt=Topt=arg minT∫Mc(x,T(x))dμ(x). \pi_{T_{\text{opt}}} = T_{\text{opt}} = \argmin_T \int_M c(x, T(x)) d\mu(x). πTopt=Topt=Targmin∫Mc(x,T(x))dμ(x). - 优点 :直接给出显式的映射 TTT,便于几何解释。
(b) Kantorovich型传输
- 允许质量分裂 :一个质量点 xxx 可以被分配到多个 yyy,通过耦合 π(x,y)\pi(x, y)π(x,y) 描述。
- 目标函数 :
Wp(μ,ν)=(infπ∈Π(μ,ν)∫M×Mc(x,y)dπ(x,y))1/p. W_p(\mu, \nu) = \left( \inf_{\pi \in \Pi(\mu, \nu)} \int_{M \times M} c(x, y) d\pi(x, y) \right)^{1/p}. Wp(μ,ν)=(π∈Π(μ,ν)inf∫M×Mc(x,y)dπ(x,y))1/p.
4. 式(2)的推导
当研究Monge型传输时,由于每个 xxx 只能映射到一个 yyy,耦合 π\piπ 可表示为:
π(x,y)=δ[y=T(x)]dμ(x). \pi(x, y) = \delta[y = T(x)] d\mu(x). π(x,y)=δ[y=T(x)]dμ(x).
代入Wasserstein距离的定义:
Wpp(μ,ν)=∫Mc(x,T(x))dμ(x). W_p^p(\mu, \nu) = \int_M c(x, T(x)) d\mu(x). Wpp(μ,ν)=∫Mc(x,T(x))dμ(x).
因此,寻找最优传输等价于:
Topt=arg minT∫Mc(x,T(x))dμ(x), T_{\text{opt}} = \argmin_T \int_M c(x, T(x)) d\mu(x), Topt=Targmin∫Mc(x,T(x))dμ(x),
即式(2)所示。
5. 应用场景与意义
在《Variational Wasserstein Clustering》中,作者利用Monge型传输的特性:
- 保持测度:确保聚类过程中质量守恒。
- 显式映射 :通过求解 ToptT_{\text{opt}}Topt 直接获得簇中心与样本的对应关系。
- 变分原理:将最优传输转化为能量最小化问题,便于数值求解。
总结
该段文字的核心是:
- 定义了最优传输问题 ,通过耦合 π\piπ 描述质量转移。
- 区分了Monge型与Kantorovich型传输,前者更适合聚类任务。
- 推导了Wasserstein距离的表达式,并指出在Monge框架下可简化为式(2)。
这一理论基础为后续的变分Wasserstein聚类算法提供了支撑,使得聚类过程既保持测度又具有几何可解释性。
Wasserstein度量的数学原理
Wasserstein度量(也称为Earth Mover's Distance,EMD)是基于最优传输理论的概率分布间距离度量。下面我将系统阐述其数学原理,从基础定义到高级理论。
1. 最优传输问题基础
1.1 Monge问题(1781年)
Monge提出的原始问题:给定两个概率测度 μ\muμ 和 ν\nuν,寻找一个测度保持映射 T:X→YT: X \rightarrow YT:X→Y,使得传输成本最小化:
infT#μ=ν∫Xc(x,T(x))dμ(x)\inf_{T_{\#}\mu = \nu} \int_X c(x, T(x)) d\mu(x)T#μ=νinf∫Xc(x,T(x))dμ(x)
其中:
- T#μ=νT_{\#}\mu = \nuT#μ=ν 表示 TTT 是测度保持映射(即 μ(T−1(B))=ν(B),∀B⊂Y\mu(T^{-1}(B)) = \nu(B), \forall B \subset Yμ(T−1(B))=ν(B),∀B⊂Y)
- c(x,y)c(x, y)c(x,y) 是传输成本函数(通常为 c(x,y)=d(x,y)pc(x, y) = d(x, y)^pc(x,y)=d(x,y)p)
- d(x,y)d(x, y)d(x,y) 是基础空间上的距离度量
关键限制 :每个质量点 xxx 只能被映射到一个 yyy(不能分割)
1.2 Kantorovich松弛(1941年)
Kantorovich将问题松弛为:
infπ∈Π(μ,ν)∫X×Yc(x,y)dπ(x,y)\inf_{\pi \in \Pi(\mu, \nu)} \int_{X \times Y} c(x, y) d\pi(x, y)π∈Π(μ,ν)inf∫X×Yc(x,y)dπ(x,y)
其中 Π(μ,ν)\Pi(\mu, \nu)Π(μ,ν) 是所有满足边缘约束的耦合集合:
- π(⋅,Y)=μ\pi(\cdot, Y) = \muπ(⋅,Y)=μ
- π(X,⋅)=ν\pi(X, \cdot) = \nuπ(X,⋅)=ν
关键区别 :允许质量分割,即一个 xxx 可以被分配到多个 yyy
2. Wasserstein距离的严格定义
2.1 p-Wasserstein距离
对于 p≥1p \geq 1p≥1,p-Wasserstein距离定义为:
Wp(μ,ν)=(infπ∈Π(μ,ν)∫M×Md(x,y)pdπ(x,y))1/pW_p(\mu, \nu) = \left( \inf_{\pi \in \Pi(\mu, \nu)} \int_{M \times M} d(x, y)^p d\pi(x, y) \right)^{1/p}Wp(μ,ν)=(π∈Π(μ,ν)inf∫M×Md(x,y)pdπ(x,y))1/p
其中:
- MMM 是基础度量空间
- d(x,y)d(x, y)d(x,y) 是 MMM 上的度量
- Π(μ,ν)\Pi(\mu, \nu)Π(μ,ν) 是所有满足边缘约束的耦合集合
2.2 Wasserstein距离的性质
Wasserstein距离满足度量空间的所有公理:
- 非负性 :Wp(μ,ν)≥0W_p(\mu, \nu) \geq 0Wp(μ,ν)≥0
- 同一性 :Wp(μ,ν)=0W_p(\mu, \nu) = 0Wp(μ,ν)=0 当且仅当 μ=ν\mu = \nuμ=ν
- 对称性 :Wp(μ,ν)=Wp(ν,μ)W_p(\mu, \nu) = W_p(\nu, \mu)Wp(μ,ν)=Wp(ν,μ)
- 三角不等式 :Wp(μ,ζ)≤Wp(μ,ν)+Wp(ν,ζ)W_p(\mu, \zeta) \leq W_p(\mu, \nu) + W_p(\nu, \zeta)Wp(μ,ζ)≤Wp(μ,ν)+Wp(ν,ζ)
此外,它还具有以下重要特性:
- 对分布形状敏感:不仅考虑分布的均值,还考虑分布的整体形状
- 几何意义明确:可以理解为将一种分布"重塑"为另一种分布所需的最小"工作量"
3. Monge-Brenier最优传输理论
3.1 Brenier定理(1987年突破)
在欧氏空间 Rn\mathbb{R}^nRn 上,若 μ\muμ 是绝对连续测度,则存在唯一的最优传输映射 TTT,且 TTT 可表示为凸函数的梯度:
T=∇ϕT = \nabla \phiT=∇ϕ
其中 ϕ\phiϕ 是 Rn\mathbb{R}^nRn 上的凸函数。
证明关键 :最优传输映射 TTT 使传输成本 ∫∥x−T(x)∥2dμ(x)\int \|x - T(x)\|^2 d\mu(x)∫∥x−T(x)∥2dμ(x) 最小化,且 TTT 是某个凸函数的梯度。
3.2 变分原理与Power Diagram
根据论文中的Alexandrov定理和Brenier定理:
-
给定凸多面体 Ω⊂Rn\Omega \subset \mathbb{R}^nΩ⊂Rn 和 kkk 个不同点 y1,...,yk⊂Rny_1, \dots, y_k \subset \mathbb{R}^ny1,...,yk⊂Rn,存在唯一的向量 h=(h1,...,hk)Th = (h_1, \dots, h_k)^Th=(h1,...,hk)T(在平移意义下),使得分段线性凸函数:
θh(x)=max{⟨x,yj⟩+hj},j=1,...,k\theta_h(x) = \max\{\langle x, y_j \rangle + h_j\}, \quad j = 1, \dots, kθh(x)=max{⟨x,yj⟩+hj},j=1,...,k满足:
vol(x∈Ω∣∇θh(x)=yj)=νj\text{vol}(x \in \Omega \mid \nabla \theta_h(x) = y_j) = \nu_jvol(x∈Ω∣∇θh(x)=yj)=νj -
梯度映射 ∇θh\nabla \theta_h∇θh 提供了Monge问题的解 ,即最小化传输成本 ∫Ω∥x−θh(x)∥2\int_\Omega \|x - \theta_h(x)\|^2∫Ω∥x−θh(x)∥2
-
Power Voronoi图 :由凸函数 θh\theta_hθh 诱导的凸分割,定义为:
Vj={m∈M∣∥m−yj∥2−rj2≤∥m−yi∥2−ri2,∀i≠j}V_j = \{m \in M \mid \|m - y_j\|^2 - r_j^2 \leq \|m - y_i\|^2 - r_i^2, \quad \forall i \neq j\}Vj={m∈M∣∥m−yj∥2−rj2≤∥m−yi∥2−ri2,∀i=j}其中 rj2=−∥yj∥2−2hjr_j^2 = -\|y_j\|^2 - 2h_jrj2=−∥yj∥2−2hj
4. Wasserstein距离的计算方法
4.1 Kantorovich方法
- 将问题转化为线性规划
- 需要预先计算成对距离
- 在离散情况下,解耦合 π\piπ 是 n×mn \times mn×m 矩阵(nnn 和 mmm 分别是两个分布的样本数)
- 计算复杂度为 O(n3logn)O(n^3 \log n)O(n3logn)
4.2 Monge-Brenier方法(变分方法)
-
通过变分原理求解:最小化能量函数
E(h)=∫Ωθh(x)μ(x)dx−∑j=1kνjhjE(h) = \int_\Omega \theta_h(x)\mu(x)dx - \sum_{j=1}^k \nu_j h_jE(h)=∫Ωθh(x)μ(x)dx−j=1∑kνjhj -
梯度:∇E(h)=(w1(h)−ν1,...,wk(h)−νk)T\nabla E(h) = (w_1(h) - \nu_1, \dots, w_k(h) - \nu_k)^T∇E(h)=(w1(h)−ν1,...,wk(h)−νk)T
其中 wj(h)=∑x∈Vj(h)μ(x)w_j(h) = \sum_{x \in V_j(h)} \mu(x)wj(h)=∑x∈Vj(h)μ(x) 是第 jjj 个单元的总质量
-
Hessian矩阵:
H=∂2E(h)∂hi∂hj={∑l∫filμ(x)dx∥yl−yi∥,i=j,∀l,s.t. fil≠∅−∫fijμ(x)dx∥yj−yi∥,i≠j,fij≠∅0,i≠j,fij=∅H = \frac{\partial^2 E(h)}{\partial h_i \partial h_j} = \begin{cases} \sum_l \frac{\int_{f_{il}} \mu(x)dx}{\|y_l - y_i\|}, & i = j, \forall l, \text{s.t. } f_{il} \neq \emptyset \\ -\frac{\int_{f_{ij}} \mu(x)dx}{\|y_j - y_i\|}, & i \neq j, f_{ij} \neq \emptyset \\ 0, & i \neq j, f_{ij} = \emptyset \end{cases}H=∂hi∂hj∂2E(h)=⎩ ⎨ ⎧∑l∥yl−yi∥∫filμ(x)dx,−∥yj−yi∥∫fijμ(x)dx,0,i=j,∀l,s.t. fil=∅i=j,fij=∅i=j,fij=∅其中 fijf_{ij}fij 是相邻单元的交集
-
通过牛顿法迭代求解:h(t+1)←h(t)−λH−1∇E(h)h^{(t+1)} \leftarrow h^{(t)} - \lambda H^{-1} \nabla E(h)h(t+1)←h(t)−λH−1∇E(h)
5. Wasserstein距离与k-means聚类的联系
5.1 Wasserstein均值问题
当目标分布 YYY 是稀疏的(即 YYY 有有限支持),Wasserstein距离最小化问题退化为:
infY∈P(M)W22(X,Y)=infY∈P(M),π∈P(M×M)∑yj=π(xi)μi∥xi−yj∥2\inf_{Y \in P(M)} W_2^2(X, Y) = \inf_{Y \in P(M), \pi \in P(M \times M)} \sum_{y_j = \pi(x_i)} \mu_i \|x_i - y_j\|^2Y∈P(M)infW22(X,Y)=Y∈P(M),π∈P(M×M)infyj=π(xi)∑μi∥xi−yj∥2
这正是k-means聚类问题:
- YYY 是簇中心集合
- π\piπ 确定了样本到簇的分配
- 目标是最小化加权平方距离和
5.2 变分Wasserstein聚类
如论文所述,变分Wasserstein聚类通过以下方式同时优化:
- 聚类质量 :∑xi∈Vjμi∥xi−yj∥2\sum_{x_i \in V_j} \mu_i \|x_i - y_j\|^2∑xi∈Vjμi∥xi−yj∥2
- Wasserstein距离 :W22(X,Y)W_2^2(X, Y)W22(X,Y)
通过迭代更新:
- Power Voronoi图 :固定簇中心 yyy,更新划分 VVV
- 簇中心 :固定划分 VVV,更新 yj=∑x∈Vjμixi∑x∈Vjμiy_j = \frac{\sum_{x \in V_j} \mu_i x_i}{\sum_{x \in V_j} \mu_i}yj=∑x∈Vjμi∑x∈Vjμixi
6. Wasserstein度量的几何解释
6.1 测地距离视角
在概率测度空间 (P2(M),W2)(\mathcal{P}_2(M), W_2)(P2(M),W2) 上:
- W2W_2W2 是测地距离
- 概率测度间的最短路径由McCann插值 给出:
μt=((1−t)I+tT)#μ0,t∈[0,1]\mu_t = ((1-t)I + tT)_{\#}\mu_0, \quad t \in [0,1]μt=((1−t)I+tT)#μ0,t∈[0,1]
其中 TTT 是从 μ0\mu_0μ0 到 μ1\mu_1μ1 的最优传输映射
6.2 Barycenter(重心)
多个分布 μ1,...,μn\mu_1, \dots, \mu_nμ1,...,μn 的Wasserstein重心定义为:
μˉ=argminμ∈P2(M)∑i=1nλiW22(μ,μi)\bar{\mu} = \arg\min_{\mu \in \mathcal{P}2(M)} \sum{i=1}^n \lambda_i W_2^2(\mu, \mu_i)μˉ=argμ∈P2(M)mini=1∑nλiW22(μ,μi)
当 n=1n=1n=1 时,这就是Wasserstein均值问题,与k-means聚类等价。
7. 不同p值的Wasserstein距离
7.1 1-Wasserstein距离 (EMD)
W1(μ,ν)=infπ∈Π(μ,ν)∫M×Md(x,y)dπ(x,y)W_1(\mu, \nu) = \inf_{\pi \in \Pi(\mu, \nu)} \int_{M \times M} d(x, y) d\pi(x, y)W1(μ,ν)=π∈Π(μ,ν)inf∫M×Md(x,y)dπ(x,y)
- 优点:计算相对简单,有双对偶形式
- 应用:图像和形状比较
7.2 2-Wasserstein距离
W2(μ,ν)=(infπ∈Π(μ,ν)∫M×Md(x,y)2dπ(x,y))1/2W_2(\mu, \nu) = \left( \inf_{\pi \in \Pi(\mu, \nu)} \int_{M \times M} d(x, y)^2 d\pi(x, y) \right)^{1/2}W2(μ,ν)=(π∈Π(μ,ν)inf∫M×Md(x,y)2dπ(x,y))1/2
- 优点 :
- 具有良好的几何性质
- 与欧氏距离有紧密联系
- 可通过变分方法高效计算
- 应用:图像处理、几何处理、聚类
8. Wasserstein度量的优势与局限
8.1 优势
- 对分布敏感:考虑分布的整体形状,而非仅统计矩
- 几何意义明确:具有清晰的物理和几何解释
- 连续性:当分布连续变化时,Wasserstein距离也连续变化
- 适用于不同支撑集:即使两个分布的支撑集不相交,也能定义有意义的距离
8.2 局限
- 计算复杂度高:尤其对于高维数据
- 维度灾难:在高维空间中收敛速度较慢
- 对离群点敏感:极端值可能显著影响距离值
9. 总结
Wasserstein度量基于最优传输理论,为概率分布间提供了一种具有几何意义的距离度量。其核心数学原理包括:
- 最优传输问题:Monge问题和Kantorovich松弛
- Brenier定理:将最优传输映射表示为凸函数的梯度
- 变分原理:通过能量最小化求解最优传输
- Power Voronoi图:作为传输计划的几何表示
- 与k-means聚类的联系:Wasserstein均值问题等价于加权k-means聚类
Wasserstein度量不仅在理论上具有优雅的数学结构,在实际应用中也展现出强大能力,如论文中所示的域适应、网格变形和表示学习等任务。特别是2-Wasserstein距离,因其良好的几何性质和与聚类问题的自然联系,在机器学习和计算机视觉领域得到广泛应用。
如何更新划分 V:变分Wasserstein聚类中的关键步骤
在变分Wasserstein聚类(Variational Wasserstein Clustering, VWC)中,更新划分 VVV 是算法的核心环节。下面我将详细解释这一过程的数学原理和实现细节。
1. 划分 VVV 的数学定义
划分 VVV 是由power Voronoi diagram定义的,其数学表达为:
Vj={m∈M∣∥m−yj∥2−rj2≤∥m−yi∥2−ri2},∀j≠iV_j = \{m \in M \mid \|m - y_j\|^2 - r_j^2 \leq \|m - y_i\|^2 - r_i^2\}, \quad \forall j \neq iVj={m∈M∣∥m−yj∥2−rj2≤∥m−yi∥2−ri2},∀j=i
通过简单代数变换,可得等价形式:
mTyj−12(yjTyj+rj2)≤mTyi−12(yiTyi+ri2)m^T y_j - \frac{1}{2}(y_j^T y_j + r_j^2) \leq m^T y_i - \frac{1}{2}(y_i^T y_i + r_i^2)mTyj−21(yjTyj+rj2)≤mTyi−21(yiTyi+ri2)
其中 rj2r_j^2rj2 与单元总质量相关,且 hj=−12(∥yj∥2+rj2)h_j = -\frac{1}{2}(\|y_j\|^2 + r_j^2)hj=−21(∥yj∥2+rj2)。
2. 更新划分 VVV 的算法流程
更新划分 VVV 的完整过程由Algorithm 1 (Variational-OT)实现,核心步骤如下:
(a) 初始化
- 设置初始参数 h(0)=0h^{(0)} = 0h(0)=0
(b) 迭代更新 hhh
重复以下步骤直到收敛(∥∇E(h)∥<ϵ\|\nabla E(h)\| < \epsilon∥∇E(h)∥<ϵ):
-
更新power diagram VVV:
- 使用当前的 (y,h)(y, h)(y,h) 计算power Voronoi图
- 每个单元 Vj(h)V_j(h)Vj(h) 由不等式 mTyj+hj≥mTyi+him^T y_j + h_j \geq m^T y_i + h_imTyj+hj≥mTyi+hi 定义
-
计算单元权重 :
wj(h)=∑m∈Vjμ(m)w_j(h) = \sum_{m \in V_j} \mu(m)wj(h)=m∈Vj∑μ(m)- wj(h)w_j(h)wj(h) 表示第 jjj 个Voronoi单元的总质量
-
计算梯度和Hessian:
- 梯度:∇E(h)=(w1(h)−ν1,...,wk(h)−νk)T\nabla E(h) = (w_1(h) - \nu_1, \dots, w_k(h) - \nu_k)^T∇E(h)=(w1(h)−ν1,...,wk(h)−νk)T
- Hessian矩阵:
H=∂2E(h)∂hi∂hj={∑l∫filμ(x)dx∥yl−yi∥,i=j,∀l,s.t. fil≠∅−∫fijμ(x)dx∥yj−yi∥,i≠j,fij≠∅0,i≠j,fij=∅H = \frac{\partial^2 E(h)}{\partial h_i \partial h_j} = \begin{cases} \sum_l \frac{\int_{f_{il}} \mu(x)dx}{\|y_l - y_i\|}, & i = j, \forall l, \text{s.t. } f_{il} \neq \emptyset \\ -\frac{\int_{f_{ij}} \mu(x)dx}{\|y_j - y_i\|}, & i \neq j, f_{ij} \neq \emptyset \\ 0, & i \neq j, f_{ij} = \emptyset \end{cases}H=∂hi∂hj∂2E(h)=⎩ ⎨ ⎧∑l∥yl−yi∥∫filμ(x)dx,−∥yj−yi∥∫fijμ(x)dx,0,i=j,∀l,s.t. fil=∅i=j,fij=∅i=j,fij=∅
其中 fijf_{ij}fij 是相邻单元 ViV_iVi 和 VjV_jVj 的交集
-
牛顿法更新 hhh :
h(t+1)←h(t)−λH−1∇E(h)h^{(t+1)} \leftarrow h^{(t)} - \lambda H^{-1} \nabla E(h)h(t+1)←h(t)−λH−1∇E(h)- λ\lambdaλ 是步长参数(通常设为1)
- H−1H^{-1}H−1 是Hessian矩阵的逆
© 返回结果
- 最终的划分 VVV 和参数 hhh
3. 数学原理详解
(a) 能量函数 E(h)E(h)E(h)
更新划分 VVV 的核心是优化能量函数:
E(h)=∫Ωθh(x)μ(x)dx−∑j=1kνjhjE(h) = \int_{\Omega} \theta_h(x)\mu(x)dx - \sum_{j=1}^k \nu_j h_jE(h)=∫Ωθh(x)μ(x)dx−j=1∑kνjhj
其中 θh(x)=max{⟨x,yj⟩+hj}\theta_h(x) = \max\{\langle x, y_j \rangle + h_j\}θh(x)=max{⟨x,yj⟩+hj} 是分段线性凸函数。
物理意义:
- ∫Ωθh(x)μ(x)dx\int_{\Omega} \theta_h(x)\mu(x)dx∫Ωθh(x)μ(x)dx:表示传输成本
- ∑j=1kνjhj\sum_{j=1}^k \nu_j h_j∑j=1kνjhj:表示约束项
- 最小化 E(h)E(h)E(h) 等价于找到最优传输映射
(b) 梯度的几何解释
∇E(h)=(w1(h)−ν1,...,wk(h)−νk)T\nabla E(h) = (w_1(h) - \nu_1, \dots, w_k(h) - \nu_k)^T∇E(h)=(w1(h)−ν1,...,wk(h)−νk)T
- 当 wj(h)>νjw_j(h) > \nu_jwj(h)>νj :第 jjj 个单元质量过大,需要缩小
- 当 wj(h)<νjw_j(h) < \nu_jwj(h)<νj :第 jjj 个单元质量过小,需要扩大
通过调整 hjh_jhj,可以控制单元 VjV_jVj 的大小:
- 增加 hjh_jhj :扩大 VjV_jVj
- 减少 hjh_jhj :缩小 VjV_jVj
© Hessian的几何解释
Hessian矩阵 HHH 描述了单元边界的变化率:
-
对角线元素 :∑l∫filμ(x)dx∥yl−yi∥\sum_l \frac{\int_{f_{il}} \mu(x)dx}{\|y_l - y_i\|}∑l∥yl−yi∥∫filμ(x)dx
- 表示单元 ViV_iVi 的"刚度",值越大越难变形
- 与相邻边界的长度和质量成正比
-
非对角线元素 :−∫fijμ(x)dx∥yj−yi∥-\frac{\int_{f_{ij}} \mu(x)dx}{\|y_j - y_i\|}−∥yj−yi∥∫fijμ(x)dx
- 表示单元 ViV_iVi 和 VjV_jVj 之间的"耦合强度"
- 值越大表示边界越容易移动
4. 实现细节
(a) Voronoi图计算
- 使用Voro++库计算power Voronoi图
- 对于每个样本点 xix_ixi,确定其所属的Voronoi单元 VjV_jVj:
j=argmaxk{xiTyk+hk}j = \arg\max_k \{x_i^T y_k + h_k\}j=argkmax{xiTyk+hk}
(b) 边界积分计算
- 计算相邻单元交集 fijf_{ij}fij 的质量:
∫fijμ(x)dx=∑x∈fijμ(x)\int_{f_{ij}} \mu(x)dx = \sum_{x \in f_{ij}} \mu(x)∫fijμ(x)dx=x∈fij∑μ(x) - 在离散情况下,fijf_{ij}fij 由共享边界的样本点组成
© 收敛条件
- 当 ∥∇E(h)∥<ϵ\|\nabla E(h)\| < \epsilon∥∇E(h)∥<ϵ 时停止迭代
- 通常 ϵ=10−6\epsilon = 10^{-6}ϵ=10−6
5. 与聚类过程的整合
在完整的VWC算法中,更新划分 VVV 是迭代测度保持映射的一部分:
-
更新划分 VVV:
- 通过Variational-OT算法,固定簇中心 yyy,更新划分 VVV
- 目标:使每个单元的总质量 wj(h)w_j(h)wj(h) 等于目标测度 νj\nu_jνj
-
更新簇中心 yyy:
- 固定划分 VVV,更新簇中心:
yj(t+1)=∑x∈Vjμixi∑x∈Vjμiy_j^{(t+1)} = \frac{\sum_{x \in V_j} \mu_i x_i}{\sum_{x \in V_j} \mu_i}yj(t+1)=∑x∈Vjμi∑x∈Vjμixi - 这是基于测度 μi\mu_iμi 的加权平均
- 固定划分 VVV,更新簇中心:
这两个步骤交替进行,直到收敛,确保:
- 划分 VVV 满足测度保持条件
- 簇中心 yyy 最小化聚类能量
6. 几何直观解释
考虑二维空间中的一个简单例子:
- 有3个簇中心 y1,y2,y3y_1, y_2, y_3y1,y2,y3
- 初始 h=(0,0,0)Th = (0, 0, 0)^Th=(0,0,0)T 产生标准Voronoi图
- 如果单元 V1V_1V1 质量过大(w1>ν1w_1 > \nu_1w1>ν1)
- 减小 h1h_1h1,使 V1V_1V1 缩小
- 边界向 y1y_1y1 移动
- 如果单元 V2V_2V2 质量过小(w2<ν2w_2 < \nu_2w2<ν2)
- 增加 h2h_2h2,使 V2V_2V2 扩大
- 边界远离 y2y_2y2
这个过程持续进行,直到所有单元的质量匹配目标测度 ν\nuν。
7. 总结
更新划分 VVV 的核心是通过调整参数 hhh 优化power Voronoi图,使其满足测度保持条件。这一过程:
- 基于变分原理 :最小化能量函数 E(h)E(h)E(h)
- 使用牛顿法:高效求解凸优化问题
- 保持几何结构:通过power diagram维持凸分割
- 确保测度守恒:使每个单元的总质量等于目标测度
这种方法的优势在于:
- 避免了在乘积空间中搜索(相比Kantorovich方法)
- 保证了局部微分同胚性质
- 同时优化Wasserstein距离和聚类质量
在实际应用中,这一过程高效稳定,为域适应、网格变形和表示学习等任务提供了强大的理论和算法支持。
如何理解 Wasserstein 重心(Barycenter)
1. Wasserstein 重心的定义
多个概率测度 μ1,...,μn\mu_1, \dots, \mu_nμ1,...,μn 的 Wasserstein 重心(Barycenter)定义为:
μˉ=argminμ∈P2(M)∑i=1nλiW22(μ,μi), \bar{\mu} = \arg\min_{\mu \in \mathcal{P}2(M)} \sum{i=1}^n \lambda_i W_2^2(\mu, \mu_i), μˉ=argμ∈P2(M)mini=1∑nλiW22(μ,μi),
其中:
- W2(⋅,⋅)W_2(\cdot, \cdot)W2(⋅,⋅) 是 2-Wasserstein 距离
- λi≥0\lambda_i \geq 0λi≥0 是权重,满足 ∑i=1nλi=1\sum_{i=1}^n \lambda_i = 1∑i=1nλi=1
- P2(M)\mathcal{P}_2(M)P2(M) 是所有具有有限二阶矩的概率测度集合
物理意义:Wasserstein 重心是使总加权传输成本最小化的"平均"分布,类似于几何中的质心概念,但扩展到概率测度空间。
2. 当 n=1n=1n=1 时的特殊情形
当 n=1n=1n=1 时,目标函数退化为:
μˉ=argminμ∈P2(M)λ1W22(μ,μ1). \bar{\mu} = \arg\min_{\mu \in \mathcal{P}_2(M)} \lambda_1 W_2^2(\mu, \mu_1). μˉ=argμ∈P2(M)minλ1W22(μ,μ1).
由于 λ1=1\lambda_1 = 1λ1=1(归一化条件),此问题等价于:
μˉ=argminμ∈P2(M)W22(μ,μ1). \bar{\mu} = \arg\min_{\mu \in \mathcal{P}_2(M)} W_2^2(\mu, \mu_1). μˉ=argμ∈P2(M)minW22(μ,μ1).
关键结论
此时,Wasserstein 重心问题等价于Wasserstein 均值问题 ,其解是 μ1\mu_1μ1 本身(因为最小距离在 μ=μ1\mu = \mu_1μ=μ1 时取得)。然而,这一结论需要结合具体应用场景理解:
- 离散测度情况 :若 μ1\mu_1μ1 是经验分布(如 k-means 中的样本分布),则 Wasserstein 均值问题转化为寻找一个离散测度 μˉ\bar{\mu}μˉ(通常为单点 Dirac 测度),使其到 μ1\mu_1μ1 的 Wasserstein 距离最小。
- k-means 聚类的联系 :在 k-means 中,簇中心是样本的几何均值,而 Wasserstein 均值问题在离散情况下也寻求类似的结果。因此,当 n=1n=1n=1 时,两者在数学形式上等价。
3. 与 k-means 聚类的等价性
3.1 k-means 目标函数
k-means 的目标是将样本划分为 kkk 个簇,并最小化总平方误差:
minC1,...,Ck∑j=1k∑x∈Cj∥x−mj∥2, \min_{C_1, \dots, C_k} \sum_{j=1}^k \sum_{x \in C_j} \|x - m_j\|^2, C1,...,Ckminj=1∑kx∈Cj∑∥x−mj∥2,
其中 mjm_jmj 是第 jjj 个簇的均值。
3.2 Wasserstein 均值问题
当 n=1n=1n=1 且 μ1\mu_1μ1 是经验分布(如样本分布)时,Wasserstein 均值问题可表示为:
μˉ=argminμ∈P2(M)W22(μ,μ1). \bar{\mu} = \arg\min_{\mu \in \mathcal{P}_2(M)} W_2^2(\mu, \mu_1). μˉ=argμ∈P2(M)minW22(μ,μ1).
若 μ\muμ 是单点 Dirac 测度 δm\delta_{m}δm,则:
W22(δm,μ1)=∫M∥x−m∥2dμ1(x), W_2^2(\delta_m, \mu_1) = \int_M \|x - m\|^2 d\mu_1(x), W22(δm,μ1)=∫M∥x−m∥2dμ1(x),
这正是 k-means 中簇中心 mmm 的目标函数!
因此,当 n=1n=1n=1 时,Wasserstein 均值问题等价于 k-means 聚类的单簇情况。
4. 数学推导
4.1 Wasserstein 距离的表达式
对于离散测度 μ1=1N∑i=1Nδxi\mu_1 = \frac{1}{N} \sum_{i=1}^N \delta_{x_i}μ1=N1∑i=1Nδxi 和单点测度 μ=δm\mu = \delta_mμ=δm,有:
W22(μ,μ1)=1N∑i=1N∥xi−m∥2. W_2^2(\mu, \mu_1) = \frac{1}{N} \sum_{i=1}^N \|x_i - m\|^2. W22(μ,μ1)=N1i=1∑N∥xi−m∥2.
这与 k-means 的目标函数完全一致。
4.2 最优解
k-means 的最优解是样本均值:
m∗=1N∑i=1Nxi. m^* = \frac{1}{N} \sum_{i=1}^N x_i. m∗=N1i=1∑Nxi.
同样,Wasserstein 均值问题的最优解也是这个均值,因为:
∂∂m(1N∑i=1N∥xi−m∥2)=−2N∑i=1N(m−xi)=0⇒m∗=1N∑i=1Nxi. \frac{\partial}{\partial m} \left( \frac{1}{N} \sum_{i=1}^N \|x_i - m\|^2 \right) = -\frac{2}{N} \sum_{i=1}^N (m - x_i) = 0 \quad \Rightarrow \quad m^* = \frac{1}{N} \sum_{i=1}^N x_i. ∂m∂(N1i=1∑N∥xi−m∥2)=−N2i=1∑N(m−xi)=0⇒m∗=N1i=1∑Nxi.
5. 应用场景与意义
5.1 离散数据聚类
在 k-means 中,样本被分配到最近的簇中心,而 Wasserstein 均值问题通过最优传输理论给出了这一过程的理论依据。
5.2 概率分布的平均
Wasserstein 重心不仅适用于离散数据,还可处理连续分布。例如,在图像生成任务中,Wasserstein GAN(W-GAN)利用 Wasserstein 距离优化生成器,其目标之一是逼近真实数据分布的重心。
5.3 变分 Wasserstein 聚类
在论文《Variational Wasserstein Clustering》中,作者通过 power diagram 和变分原理求解 Wasserstein 重心,实现了同时优化聚类质量和测度保持映射。当 n=1n=1n=1 时,这一方法退化为标准 k-means 聚类。
6. 总结
- Wasserstein 重心是概率测度空间中的"平均"概念,通过最小化总传输成本定义。
- 当 n=1n=1n=1 时,Wasserstein 均值问题等价于 k-means 聚类的单簇情况,两者在数学形式和目标上完全一致。
- 这一等价性为将最优传输理论应用于聚类问题提供了理论基础,特别是在处理概率分布数据时(如图像、文本等)。