核心思想
该论文从流形学习视角重新诠释传统K-means,提出三大创新理念:
-
质心无关性 :通过理论证明,K-means可等价转化为基于标签矩阵GGG构建的流形结构S=LLTS=LL^TS=LLT(其中L=GP−1/2L=GP^{-1/2}L=GP−1/2)的优化问题,从而完全避免质心矩阵UUU的显式估计,消除对初始质心敏感的问题。
-
流形-标签一致性:将数据内在几何结构(流形)与聚类标签直接关联,确保优化过程中流形结构与聚类结果保持一致,增强对非线性可分数据的处理能力。
-
自然类别平衡 :引入ℓ2,1\ell_{2,1}ℓ2,1-范数作为正则项,通过最大化∥GT∥2,1\|G^T\|_{2,1}∥GT∥2,1在优化过程中自然诱导类别平衡,无需额外施加平衡约束。
目标函数推导
1. 传统K-means目标
minU,G∑i,jgij∥xi−uj∥F2\min_{U,G}\sum_{i,j}g_{ij}\|x_i-u_j\|_F^2U,Gmini,j∑gij∥xi−uj∥F2
2. 流形学习等价形式(定理1)
通过展开并代入最优质心uj=Xgjpj−1u_j = Xg_j p_j^{-1}uj=Xgjpj−1,可证:
minU,G∑i,jgij∥xi−uj∥F2=minG∑i,l∥xi−xl∥F2sil=minG∈Indtr(GTDGP−1)\min_{U,G}\sum_{i,j}g_{ij}\|x_i-u_j\|F^2 = \min{G}\sum_{i,l}\|x_i-x_l\|F^2 s{il} = \min_{G\in\text{Ind}} \text{tr}(G^TDGP^{-1})U,Gmini,j∑gij∥xi−uj∥F2=Gmini,l∑∥xi−xl∥F2sil=G∈Indmintr(GTDGP−1)
其中:
- P=diag(p1,...,pC)P = \text{diag}(p_1,\dots,p_C)P=diag(p1,...,pC), pj=∑igijp_j = \sum_i g_{ij}pj=∑igij(每类样本数)
- S=LLTS = LL^TS=LLT, L=GP−1/2L = GP^{-1/2}L=GP−1/2(流形结构矩阵)
- DDD为距离矩阵,元素dij=∥xi−xj∥2/σd_{ij} = \|x_i - x_j\|^2/\sigmadij=∥xi−xj∥2/σ(σ\sigmaσ为最大样本间距)
3. 平衡聚类目标函数(定理2)
为实现类别平衡,引入ℓ2,1\ell_{2,1}ℓ2,1-范数正则项:
maxG∥GT∥2,1=∑j=1CgjTgj=∑j=1Cnjs.t.G≥0, G1=1\max_G \|G^T\|{2,1} = \sum{j=1}^C \sqrt{g_j^T g_j} = \sum_{j=1}^C \sqrt{n_j} \quad \text{s.t.} \quad G \geq 0,\ G\mathbf{1} = \mathbf{1}Gmax∥GT∥2,1=j=1∑CgjTgj =j=1∑Cnj s.t.G≥0, G1=1
当n1=⋯=nC=N/Cn_1 = \cdots = n_C = N/Cn1=⋯=nC=N/C时取得最大值,即类别自然平衡。
最终优化问题:
minGtr(GTDG)−λ∥GT∥2,1s.t.G≥0, G1=1\min_G \text{tr}(G^TDG) - \lambda \|G^T\|_{2,1} \quad \text{s.t.} \quad G \geq 0,\ G\mathbf{1} = \mathbf{1}Gmintr(GTDG)−λ∥GT∥2,1s.t.G≥0, G1=1
其中λ>0\lambda > 0λ>0为平衡强度超参数。
优化过程详解
由于ℓ2,1\ell_{2,1}ℓ2,1-范数非光滑,采用一阶泰勒展开近似:
步骤1:泰勒展开
在迭代点G(t)G^{(t)}G(t)处展开:
∥GT∥2,1≈∥G(t)T∥2,1+⟨∇∥G(t)T∥2,1, G−G(t)⟩\|G^T\|{2,1} \approx \|{G^{(t)}}^T\|{2,1} + \langle \nabla \|{G^{(t)}}^T\|_{2,1},\ G - G^{(t)} \rangle∥GT∥2,1≈∥G(t)T∥2,1+⟨∇∥G(t)T∥2,1, G−G(t)⟩
步骤2:计算梯度
∥GT∥2,1\|G^T\|{2,1}∥GT∥2,1对GGG的导数为:
F=∂∥GT∥2,1∂G=G⋅diag(1∥g1∥21/2, ..., 1∥gC∥21/2)F = \frac{\partial \|G^T\|{2,1}}{\partial G} = G \cdot \text{diag}\left( \frac{1}{\|g_1\|_2^{1/2}},\ \dots,\ \frac{1}{\|g_C\|_2^{1/2}} \right)F=∂G∂∥GT∥2,1=G⋅diag(∥g1∥21/21, ..., ∥gC∥21/21)
步骤3:迭代更新
忽略常数项后,第(t+1)(t+1)(t+1)次迭代求解:
G(t+1)=argminG≥0, G1=1tr(GTDG)−λtr(FTG)G^{(t+1)} = \arg\min_{G\geq0,\ G\mathbf{1}=\mathbf{1}} \text{tr}(G^TDG) - \lambda \text{tr}(F^T G)G(t+1)=argG≥0, G1=1mintr(GTDG)−λtr(FTG)
步骤4:逐行解析解
将G=[giT; G0]G = [g_i^T;\ G_0]G=[giT; G0]、D=[diidi0Tdi0D0]D = \begin{bmatrix} d_{ii} & d_{i0}^T \\ d_{i0} & D_0 \end{bmatrix}D=[diidi0di0TD0]分块,利用dii=0d_{ii}=0dii=0,第iii行更新为:
gib={1,b=argminj(2G0Tdi0−λ(fi)T)j0,otherwiseg_i^b = \begin{cases} 1, & b = \arg\min_j \left( 2G_0^T d_{i0} - \lambda (f_i)^T \right)_j \\ 0, & \text{otherwise} \end{cases}gib={1,0,b=argminj(2G0Tdi0−λ(fi)T)jotherwise
即每行仅一个元素为1(硬聚类),位置由最小化目标决定。
主要贡献点
- 理论创新:首次严格证明K-means与流形学习的等价性(定理1),建立二者统一框架。
- 算法革新:提出无质心K-means,彻底规避质心初始化敏感问题,提升鲁棒性。
- 平衡机制 :揭示ℓ2,1\ell_{2,1}ℓ2,1-范数在聚类中的平衡作用(定理2),实现类别平衡的自然诱导。
- 框架通用性 :目标函数仅依赖距离矩阵DDD,可灵活嵌入任意距离度量(如核距离、测地距离),有效处理非线性数据。
- 实验验证:在UMIST、AR、Pendigits、PEAL四个基准数据集上显著优于K-means、KKM、RKM、CDKM、K-sum等6种对比算法。
算法实现流程(Algorithm 1)
- 输入 :距离矩阵D∈RN×ND \in \mathbb{R}^{N\times N}D∈RN×N,聚类数CCC,超参数λ\lambdaλ
- 初始化 :随机生成满足G≥0, G1=1G\geq0,\ G\mathbf{1}=\mathbf{1}G≥0, G1=1的标签矩阵G∈RN×CG \in \mathbb{R}^{N\times C}G∈RN×C
- 迭代优化 :
- Step 4 :按式(18)更新梯度矩阵FFF
- Step 5 :对GGG的每一行gig_igi:
- 计算向量h=2G0Tdi0−λ(fi)Th = 2G_0^T d_{i0} - \lambda (f_i)^Th=2G0Tdi0−λ(fi)T
- 将hhh中最小值对应位置置1,其余置0
- 重复直至目标函数收敛或达到最大迭代次数
- 输出 :离散标签矩阵GGG(每行指示样本所属类别)
注:距离矩阵DDD构建采用对称kkk-近邻策略:仅当xix_ixi与xjx_jxj互为kkk近邻时计算欧氏距离,否则设为σ\sigmaσ(最大样本间距)。
局限性分析
-
超参数敏感性:
- λ\lambdaλ与近邻数KKK需手动调优(图1显示不同数据集最优值差异显著:UMIST需λ=3×106\lambda=3\times10^6λ=3×106,PEAL仅需λ=8×104\lambda=8\times10^4λ=8×104)
- 缺乏自适应选择机制,限制实际应用中的普适性(作者在结论中已承认此问题)
-
计算复杂度:
- 距离矩阵DDD构建需O(N2d)O(N^2d)O(N2d)时间,大规模数据下内存与计算开销大
- 迭代优化虽为线性复杂度,但收敛速度依赖初始值(图2显示UMIST需约20次迭代)
-
平衡性假设局限:
- ℓ2,1\ell_{2,1}ℓ2,1-范数强制类别平衡,在真实数据分布极度不均衡时可能扭曲聚类结构
- 未讨论如何权衡"平衡性"与"簇内紧凑性"的冲突
-
理论完备性不足:
- 收敛性分析依赖Luenberger(1984)的通用理论,缺乏针对本算法的严格收敛速率证明
- 未分析局部最优解的性质及逃离策略
-
实验验证局限:
- 仅在4个中等规模数据集验证(最大Pendigits含10992样本)
- 缺少高维稀疏数据(如文本)、流数据、噪声鲁棒性等场景测试
- 未与近年深度聚类方法(如DEC、DAEGC)对比
-
距离度量依赖:
- 虽声称支持任意距离函数,但实验仅用欧氏距离
- 对距离度量的选择敏感性未系统分析(如马氏距离、余弦距离的影响)
总结
该论文通过流形学习视角重构K-means,提出无质心、自然平衡的聚类框架,在理论创新与算法设计上具有显著价值。其核心贡献在于揭示了ℓ2,1\ell_{2,1}ℓ2,1-范数的平衡机制及K-means与流形学习的深层联系。然而,超参数依赖性强、大规模扩展性有限、平衡性假设可能不适用于真实场景等问题,仍需后续研究解决。未来工作可探索自适应超参数选择、非平衡场景扩展及与深度表示学习的结合。