核心思想
该论文提出了一种名为BGFC (Bipartite Graph Factorization Clustering)的协同聚类模型,核心创新在于同时利用样本-锚点双部图和锚点-锚点相似图的双重结构信息,实现高效且准确的聚类。传统样本-锚点协同聚类方法仅利用双部图捕捉样本流形结构,却忽略了锚点自身的内在几何关系,导致锚点伪标签缺乏局部平滑性,进而影响样本聚类质量。BGFC通过以下两个关键机制解决此问题:
- 双部图直接分解 :将双部图权重矩阵 B B B通过非负矩阵分解直接映射为样本和锚点的one-hot伪标签,避免传统方法中需二次K-Means聚类的不稳定环节。
- 锚点流形正则化 :显式构建锚点相似图 S S S,并通过低秩分解强制几何相近的锚点获得一致的簇分配,增强伪标签可靠性。
目标函数
BGFC的统一目标函数(式17)为:
min F , G , Q , W ∥ B − F Q G ⊤ ∥ F 2 + λ ∥ G − C W ∥ F 2 \min_{F,G,Q,W} \|B - FQG^\top\|_F^2 + \lambda \|G - CW\|_F^2 F,G,Q,Wmin∥B−FQG⊤∥F2+λ∥G−CW∥F2
约束条件:
- F ∈ R n × c , G ∈ R m × c F \in \mathbb{R}^{n \times c}, G \in \mathbb{R}^{m \times c} F∈Rn×c,G∈Rm×c 为one-hot指示矩阵( F , G ∈ Ind F, G \in \text{Ind} F,G∈Ind)
- Q ∈ R c × c ≥ 0 Q \in \mathbb{R}^{c \times c} \geq 0 Q∈Rc×c≥0 为非负辅助矩阵
- W ∈ R c × c W \in \mathbb{R}^{c \times c} W∈Rc×c 满足正交性约束 W ⊤ W = I W^\top W = I W⊤W=I
符号说明:
- B ∈ R n × m B \in \mathbb{R}^{n \times m} B∈Rn×m:样本-锚点双部图权重矩阵
- S ∈ R m × m S \in \mathbb{R}^{m \times m} S∈Rm×m:锚点相似图,通过式(11)优化得到
- C = R Ω 1 / 2 C = R\Omega^{1/2} C=RΩ1/2:由 S S S的特征分解 S = R Ω R ⊤ S = R\Omega R^\top S=RΩR⊤导出( Ω \Omega Ω含前 c c c个最大特征值)
- λ > 0 \lambda > 0 λ>0:平衡双部图分解与锚点流形平滑性的正则化参数
两项物理意义:
- 第一项 ∥ B − F Q G ⊤ ∥ F 2 \|B - FQG^\top\|_F^2 ∥B−FQG⊤∥F2:通过矩阵分解建模样本与锚点伪标签的耦合关系,使高相似度的样本-锚点对获得一致簇分配。
- 第二项 λ ∥ G − C W ∥ F 2 \lambda \|G - CW\|_F^2 λ∥G−CW∥F2 :强制锚点伪标签 G G G逼近低秩表示 C W CW CW,确保几何邻近锚点具有相同簇标签,增强局部平滑性。
优化过程详解
BGFC采用交替优化策略迭代更新各变量,每步均有闭式解:
1. 锚点相似图 S S S的初始化(式18--26)
对每个锚点 z i z_i zi,求解:
min s i , : ≥ 0 , s i , : 1 = 1 ∥ s i , : + 1 2 γ i d z i , : ∥ 2 2 \min_{s_{i,:} \geq 0, s_{i,:}\mathbf{1}=1} \|s_{i,:} + \frac{1}{2\gamma_i} d_{z_{i,:}}\|_2^2 si,:≥0,si,:1=1min∥si,:+2γi1dzi,:∥22
其中 d z i j = ∥ z i − z j ∥ 2 2 d_{z_{ij}} = \|z_i - z_j\|2^2 dzij=∥zi−zj∥22。通过KKT条件得最优解:
s i j = ( − d z i j 2 γ i + η ) + s{ij} = \left(-\frac{d_{z_{ij}}}{2\gamma_i} + \eta\right)_+ sij=(−2γidzij+η)+
为避免NP-hard的 γ i \gamma_i γi调参,论文提出基于近邻数 k k k自适应计算:
γ i = 1 2 k d z i ( k + 1 ) − 1 2 ∑ j = 1 k d z i j \gamma_i = \frac{1}{2}kd_{z_{i(k+1)}} - \frac{1}{2}\sum_{j=1}^k d_{z_{ij}} γi=21kdzi(k+1)−21j=1∑kdzij
其中 d z i ( k ) d_{z_{i(k)}} dzi(k)表示第 i i i行距离的第 k k k小值。
2. 更新 Q Q Q(式29)
固定 F , G , W F,G,W F,G,W,目标简化为:
min Q ≥ 0 ∥ B − F Q G ⊤ ∥ F 2 \min_{Q \geq 0} \|B - FQG^\top\|_F^2 Q≥0min∥B−FQG⊤∥F2
求导并令梯度为零,得闭式解:
Q = ( F ⊤ F ) − 1 F ⊤ B G ( G ⊤ G ) − 1 Q = (F^\top F)^{-1}F^\top BG(G^\top G)^{-1} Q=(F⊤F)−1F⊤BG(G⊤G)−1
关键性质 :因 F , G F,G F,G为one-hot矩阵, F ⊤ F F^\top F F⊤F和 G ⊤ G G^\top G G⊤G均为对角矩阵(对角元为各簇样本/锚点数),故 Q Q Q自动满足非负性,无需额外投影。
3. 更新 W W W(式32)
固定其他变量,优化问题转化为:
max W ⊤ W = I Tr ( W ⊤ C ⊤ G ) \max_{W^\top W = I} \text{Tr}(W^\top C^\top G) W⊤W=ImaxTr(W⊤C⊤G)
令 H = C ⊤ G H = C^\top G H=C⊤G,对其做SVD分解 H = U Σ V ⊤ H = U\Sigma V^\top H=UΣV⊤,则最优解为:
W = U V ⊤ W = UV^\top W=UV⊤
此解满足正交约束且最大化目标函数(由von Neumann迹不等式保证)。
4. 更新 G G G(式37)
固定 F , Q , W F,Q,W F,Q,W,目标重写为:
min G ∈ Ind ∥ B ⊤ − G F ~ ∥ F 2 + λ ∥ G − C ~ ∥ F 2 \min_{G \in \text{Ind}} \|B^\top - G\tilde{F}\|_F^2 + \lambda \|G - \tilde{C}\|_F^2 G∈Indmin∥B⊤−GF~∥F2+λ∥G−C~∥F2
其中 F ~ = ( F Q ) ⊤ \tilde{F} = (FQ)^\top F~=(FQ)⊤, C ~ = C W \tilde{C} = CW C~=CW。对第 i i i个锚点,其最优簇分配为:
g i j = { 1 if j = arg min s ( ∥ b i ⊤ − f ~ s , : ∥ 2 2 − 2 λ c ~ i s ) 0 otherwise g_{ij} = \begin{cases} 1 & \text{if } j = \arg\min_s \left( \|b_i^\top - \tilde{f}_{s,:}\|2^2 - 2\lambda \tilde{c}{is} \right) \\ 0 & \text{otherwise} \end{cases} gij={10if j=argmins(∥bi⊤−f~s,:∥22−2λc~is)otherwise
该规则平衡双部图一致性(第一项)与锚点流形平滑性(第二项)。
5. 更新 F F F(式39)
固定 G , Q , W G,Q,W G,Q,W,类似地:
f i j = { 1 if j = arg min s ∥ b i , : − g ~ s , : ∥ 2 2 0 otherwise f_{ij} = \begin{cases} 1 & \text{if } j = \arg\min_s \|b_{i,:} - \tilde{g}_{s,:}\|_2^2 \\ 0 & \text{otherwise} \end{cases} fij={10if j=argmins∥bi,:−g~s,:∥22otherwise
其中 G ~ = Q G ⊤ \tilde{G} = QG^\top G~=QG⊤。此步仅依赖双部图结构,无额外正则项。
收敛性:每步更新均降低目标函数值,且目标函数有下界,故算法收敛至局部最优(理论保证见文献[37])。
主要贡献点
- 首创双图协同分解框架:首次联合利用样本-锚点双部图与锚点-锚点相似图,通过矩阵分解直接生成one-hot伪标签,避免传统方法中K-Means二次聚类的不稳定性。
- 锚点流形显式建模:通过低秩分解强制锚点相似图的块对角结构,显著提升锚点伪标签的局部平滑性与可靠性(实验显示锚点ACC平均提升3.5%)。
- 高效可扩展优化算法 :设计具有闭式解的交替优化策略,时间复杂度为 O ( n m d + m 2 d + ( n m 2 ) t ) O(nmd + m^2d + (nm^2)t) O(nmd+m2d+(nm2)t)。当 n ≫ m > c n \gg m > c n≫m>c时,近似为 O ( n t ) O(nt) O(nt),线性依赖样本数,适用于大规模数据(如FashionMNIST上比SNMF快2个数量级)。
- 理论与实验双重验证:在10个基准数据集(含图像、医疗、金融等)上,BGFC在ACC、F1-score等指标上均显著优于9种SOTA方法,且训练时间最短。
算法实现流程(Algorithm 1)
-
输入预处理:
- 数据归一化 + PCA降维(保留95%方差)
- 用K-Means生成 m = 0.15 n m = 0.15n m=0.15n个锚点
- 用式(4)构建双部图 B B B: min B ∑ i , j ∥ x i − z j ∥ 2 2 b i j + α ∥ B ∥ F 2 \min_B \sum_{i,j} \|x_i - z_j\|2^2 b{ij} + \alpha \|B\|_F^2 minB∑i,j∥xi−zj∥22bij+α∥B∥F2
-
初始化:
- 计算锚点相似图 S S S(基于自适应 γ i \gamma_i γi)
- 特征分解 S = R Ω R ⊤ S = R\Omega R^\top S=RΩR⊤,得 C = R Ω 1 / 2 C = R\Omega^{1/2} C=RΩ1/2
- 随机初始化 F , G F,G F,G
-
迭代优化 (直至相对收敛 obj t − 1 − obj t obj t < 10 − 4 \frac{\text{obj}_{t-1} - \text{obj}_t}{\text{obj}_t} < 10^{-4} objtobjt−1−objt<10−4):
pythonwhile not converged: Q = (F.T @ F).inv() @ F.T @ B @ G @ (G.T @ G).inv() W = svd(C.T @ G).U @ svd(C.T @ G).V.T G = update_G(B.T, F@Q, C@W, λ) # 按式37分配 F = update_F(B, Q@G.T) # 按式39分配 obj = compute_objective(B, F, Q, G, C, W, λ) -
输出 :样本伪标签 F F F与锚点伪标签 G G G
局限性分析
-
单模态数据局限:模型设计针对单视图数据,未考虑多模态/多视图场景中不同特征空间的对齐问题。虽然作者在Related Work中提及多视图双部图融合(文献[9,10]),但BGFC本身未集成跨模态一致性约束,难以直接应用于RGB-D图像、图文对齐等任务。
-
静态数据假设:算法基于批量优化设计,所有样本需同时加载内存。对于流式数据或在线学习场景(如实时视频聚类),需重新设计增量更新机制,否则每次新样本到达需全量重训练。
-
锚点生成依赖K-Means:初始锚点通过K-Means生成,其质量受初始化影响。尽管Hierarchical K-Means(式4)缓解了部分问题,但在非凸簇分布(如环形、月牙形)下仍可能产生次优锚点集,影响双部图构建质量。
-
欧氏距离的局限性 :锚点相似图 S S S基于欧氏距离构建(式11),对高度非线性流形(如瑞士卷)的几何结构捕捉能力有限。虽低秩分解可部分补偿,但若先验引入核方法或测地距离可能进一步提升性能。
-
超参数敏感性 :尽管实验表明 λ = 1 , k = 11 \lambda=1, k=11 λ=1,k=11在多数数据集上表现稳健(图4),但对分布极度偏斜的数据(如长尾分布),最优参数可能显著偏移,需额外验证。
-
理论保证不足:论文证明了算法收敛至局部最优,但未分析解的质量界(如与全局最优的差距)或泛化误差界,理论深度有待加强。
总结
BGFC通过双图协同分解 与锚点流形正则化 的创新结合,在保持线性时间复杂度的同时显著提升了协同聚类的准确性与稳定性。其实验设计严谨(10数据集+4指标+消融实验),工程实现高效(MATLAB实现<100行核心代码),为大规模聚类提供了实用方案。尽管存在单模态、静态数据等局限,但其核心思想------通过低秩结构增强锚点表示质量以反哺样本聚类------为后续研究(如动态锚点选择、多模态锚点融合)提供了重要启示。该工作是样本-锚点协同聚类领域的重要进展,尤其适合资源受限的大规模应用场景。