【论文阅读】Self-Correcting Clustering

论文地址：

摘要

目标分布的引入显著提升了深度聚类的效果。然而，大多数相关的深度聚类方法存在两个主要缺陷：(1) 依赖人工设计的目标分布函数，性能存在不确定性；(2) 聚类错误分配的累积。为了解决这些问题，本文提出了一种自校正聚类（Self-CC）框架。在 Self-CC 中，设计了一种鲁棒目标分布求解器（RTDS） ，用于自动预测目标分布并缓解错误分配的影响 。具体而言，RTDS 通过建模聚类模块的训练损失分布，将根据聚类分配结果选出的高置信度样本划分为具有正确伪标签的已标记样本 和可能错误分配的未标记样本 ，并利用划分后的数据进行半监督训练 。关键的超参数可根据伪标签空间中错误分配的分布特性进行自适应设定，并通过理论分析支持。经过训练的 RTDS 能够自动预测目标分布 ，从而优化聚类模块并校正聚类错误分配。聚类模块与 RTDS 互相促进，形成正反馈循环。在四个基准数据集上的大量实验验证了所提 Self-CC 方法的有效性。

引言

作为数据挖掘中最重要的研究课题之一，聚类能够在无标签信息的情况下挖掘样本间的相关关系 ，并已广泛应用于多个领域。传统聚类方法（如 k-means、密度聚类和子空间聚类）主要基于距离度量 ，将样本划分为不同的簇。然而，随着数据复杂度的急剧增加，这些浅层方法逐渐受到维度灾难的限制 。为此，研究人员尝试通过降维（如流形学习和人工构造的语义特征）来缓解高维数据带来的负面影响，尽管这些方法提升了聚类性能，但仍面临泛化能力弱、计算复杂度高等问题。

近年来，深度学习 的发展使神经网络因其强大的表示学习能力 成为聚类研究的热点。研究者们尝试利用神经网络提取更有效的嵌入特征，以提升聚类性能，这一方法被称为深度聚类。与传统方法相比，深度聚类在聚类性能上取得了前所未有的提升。然而，仍然存在两个主要问题：

人工设计的目标分布函数 ：

由于缺乏标签信息，深度聚类无法通过监督方式优化，因此通常依赖人工设计的目标分布函数 来生成伪标签以指导训练。这些目标分布可以是精心设计的非线性变换 或预定义的概率与几何关系公式 ，但可能忽略关键的潜在结构信息，限制了深度聚类的潜力。
聚类误分配的累积 ：

深度聚类无法通过监督方式评估聚类结果，因此只能依赖几何关系或概率特征进行自评估。这导致错误分配的样本难以检测和校正 ，并且错误分配会影响目标分布的准确性，进而导致误分配的逐步累积，降低整体聚类性能。

Self-CC 方法：自校正聚类框架

为了解决上述问题，本文提出了一种自校正聚类（Self-Correcting Clustering, Self-CC）框架，主要由聚类模块、成员选择器和鲁棒目标分布求解器（RTDS）三部分组成。

Self-CC 的核心思想包括：

自动预测目标分布 ：利用鲁棒目标分布求解器（RTDS），从聚类分配结果中选取高置信度样本，并利用其进行训练，以此消除对人工设计目标分布的依赖。
缓解误分配的负面影响 ：在训练 RTDS 过程中，采用样本选择和噪声标签学习策略，降低误分配对聚类性能的影响。

在 Self-CC 结构中，首先利用模糊聚类获取初始聚类分配，但此时仍然存在大量误分配，影响 RTDS 的性能，尤其是在训练早期。为此，Self-CC 采用成员选择器 筛选高置信度样本集 Xh 并赋予伪标签，从粗粒度上去除部分误分配样本。然后，对 Xh进行数据增强 ，并用于训练 RTDS。然而，即使经过筛选，Xh仍可能包含顽固的误分配样本，影响目标分布求解的准确性。因此，Self-CC 进一步采用高斯分布建模训练损失 ，检测可能的误分配，并丢弃不可靠的伪标签，从而将 RTDS 训练过程转化为伪半监督学习任务。

在 RTDS 的优化过程中，Self-CC 通过噪声转换矩阵 估计误分配的分布特性，并自适应调整半监督学习的参数，从而提高目标分布的准确性。最终，RTDS 能够自动预测目标分布，并优化聚类模块的训练 ，而聚类模块的优化又能帮助选择更多高置信度样本，从而训练更优的 RTDS ，形成正反馈循环，提升整体聚类性能。

主要贡献

提出了一种模块化的自校正聚类框架（Self-CC） ，降低了深度聚类对人工设计目标分布的依赖，并缓解了误分配累积对聚类性能的负面影响。
提出了一种自动目标分布求解方法，利用神经网络的表示学习能力，从原始数据自动映射到目标分布，减少对人工设计的几何或概率方法的依赖。
提出了一种样本筛选策略，提高目标分布求解器的鲁棒性，通过检测误分配样本并校正错误的伪标签，从而提升聚类性能。

实验结果表明，Self-CC 在四个基准数据集上均优于多种先进的聚类方法，验证了其有效性。

模型

本节重点讨论深度聚类中的两个问题：（1）手工设计的目标分布函数，以及（2）聚类错误分配的累积。图 1 展示了提出的自校正聚类（Self-CC）框架，该框架包含三个模块：聚类模块、成员选择器和稳健目标分布求解器（RTDS）。

假设数据集 X 中包含 N 个样本，需要将其分类到 C个不相交的簇中。首先，原始数据通过聚类模块映射到概率空间，该模块由两部分组成，即特征提取器和聚类层。将原始数据输入特征提取器后，可以获得低维嵌入特征。而样本属于各个类别的概率 Pclu（即聚类分配）可由聚类层估计得到。

根据 Pclu，可以选择一个高置信度样本集 Xh，并为其分配伪标签，以粗粒度地消除聚类错误分配的负面影响。然后，通过数据增强扩展高置信度样本集，并将其输入到稳健目标分布求解器进行训练。

稳健目标分布求解器的主要功能是通过训练一对双分类器，以原始数据为输入，自动求解目标分布。由于 Xh 仍然不可避免地包含错误分配的样本，在 RTDS 中引入了一种错误分配检测机制，以识别并丢弃不可靠的伪标签。随后，**RTDS 的分类任务可转换为一个伪半监督学习问题，以缓解错误分配带来的负面影响。**同时，可以通过估计噪声转移矩阵对 Xh 中错误分配样本的分布进行定性分析，并根据估计的分布自适应地设置平衡系数，该系数对半监督训练过程有重要影响。

经过训练的稳健目标分布求解器可以预测目标分布，并通过缩小目标分布与聚类分配之间的差距来指导聚类模块的优化。在每个训练周期中，随着聚类模块性能的提升，高置信度样本集 Xh 的选择率逐步提高，进而得到更准确的目标分布，并形成正反馈循环，直到算法收敛。

A. 聚类模块

聚类模块将样本从原始特征空间映射到一个 C 维概率空间，其中包含一个特征提取器和一个聚类层。首先，特征提取器将原始数据投影到低维嵌入空间，以缓解维度灾难。特征提取器的选择取决于聚类任务的复杂性。对于简单数据，自动编码器（Autoencoder）已经足够；而对于复杂的真实世界图像数据集，可以选择更强大的神经网络，如自监督预训练的 ResNet 。

在从原始数据提取嵌入特征后，样本属于各个簇的概率可以通过聚类层计算。具体来说，受模糊理论 $40$ 和软分配技术 $19$ 启发，聚类层的前向传播 fCluLf可计算如下：

其中，p_{clu,ij} 表示第 i个样本属于第 j 个簇的聚类分配概率，μj是嵌入空间中第 j 个聚类中心的向量，m>1 是模糊因子（fuzzifier）。聚类层的参数包括 C 个聚类中心向量，模糊因子 m 为超参数。

为了初始化聚类层，首先利用上述公式计算聚类分配 Pclu，然后基于这些分配更新聚类中心：

这两个步骤交替执行，直到聚类层的目标函数收敛：

根据聚类分配 Pclu，可以求解伪标签 Yp：

通过这些伪标签，可将无监督聚类任务转化为伪监督学习问题。

B. 成员选择器

尽管已经获得伪标签，但直接使用它们训练鲁棒目标分布求解器并不是一个好选择。实际上，尤其是在训练早期，特征提取器的聚类可靠性较差，导致许多样本被错误分类。尽管鲁棒目标分布求解器能够缓解错误分配带来的影响，但过多的错误仍然会降低整体性能 $31$ , $32$ , $33$ , $34$ 。因此，为了提高目标分布的准确性，需要尽可能地排除这些错误分配的样本。

然而，由于没有先验标签信息，选择只能基于聚类分配 Pclu进行。具体来说，每个簇中按 Pclu选择前 η 个样本，η被称为选择率。结合伪标签 Yp，可以收集一个高置信度样本集 Xh。第一轮训练的选择率为 η0，称为初始选择率。随着训练的进行，聚类模块变得更加准确，因此可以选择更多样本，因此在每个轮次增加 Δη来扩展 Xh 的规模，Δη 被称为增长步长。

尽管成员选择器能够排除部分错误分配的样本，但在训练早期，所选样本的数量会骤降（从 N 降至 ηN），导致目标分布的准确性受到影响。为了解决这一问题，引入数据增强（data augmentation）来扩展 Xh。如 $41$ 所述，数据增强对深度聚类影响显著，可分为非线性增强（如非线性随机变形）和线性增强（如旋转、剪切）。研究表明，结合非线性和线性增强可以提升泛化能力。因此，对 Xh 同时应用非线性和线性增强 B 次，使得每个样本在 Xh 中拥有 B+1个不同视图，并共享相同的伪标签，从而生成一个增强的高置信度样本集 Xh∗ 用于训练鲁棒目标分布求解器。

C. 鲁棒目标分布求解器

鲁棒目标分布求解器的主要功能包括：

自动求解目标分布，不依赖人工设计的非线性变换；
缓解错误分配的影响，即高置信度样本集中的错误样本。

该求解器的核心组件是 双分类器（dual classifiers） ，它们具有相似但不完全相同的结构。引入双分类器的目的是避免确认偏差（confirmation bias） $31$ 。根据 $42$ ，神经网络学习干净样本的模式要比学习错误样本的模式容易得多。这种学习难度的差异使得错误样本的损失值大于干净样本的损失值。因此，可以利用训练损失来检测错误样本。如果丢弃这些不可靠的伪标签，则 RTDS 可以以伪半监督方式进行训练，从而减轻错误样本的影响。

然而，文献 $31$ 指出，仅使用一个分类器会导致确认偏差。因此，研究者们引入了两个相同结构但独立初始化的分类器。然而， $30$ 发现两个相同结构的分类器检测性能相似，原因在于虽然初始化不同，但由于参数空间相同，它们最终可能收敛到相同的优化结果。而在本研究中，我们使用不同结构 且不同初始化的双分类器，使得它们的优化方向本质上有所不同。

在初始化双分类器后，首先利用增强的高置信度样本集 Xh∗ 进行预热训练（warm-up training），并采用交叉熵损失：

其中，yp,c,j是 j 号样本的伪标签，f_{DC,c,i} (x_h^*) 是 i号分类器对该样本预测的第 c 类概率。

随后，利用高斯混合模型（GMM）根据训练损失区分干净样本和错误样本，并通过投票机制进行集成选择（ensemble selection）：

如果p_{clean,ij} 低于阈值 ν，则该样本及其所有增强视图都被判定为错误样本，并丢弃其伪标签。

最终，将剩余样本分为有标签数据 Xlabeled 和无标签数据 Xunlabeled ，并采用交叉训练（cross-training）策略来避免确认偏差。分类器 _{DC,1} 的训练目标函数如下：

其中，σ为平衡系数，分别使用交叉熵和均方误差（MSE）计算有标签和无标签数据的损失。

这样，通过双分类器、错误样本剔除及交叉训练，可以有效提高聚类的准确性和鲁棒性。

实验

所提出的 Self-CC 及其他对比方法的聚类性能如表 I 所示。从表中可以看出，Self-CC 在四个基准数据集上表现出竞争力。表 I 中的符号 "-" 表示在相应数据集中，这些方法的源代码和得分不可用。此外，符号 "*" 表示这些结果是通过运行已发表论文提供的代码生成的。

首先，从准确率的角度来看，Self-CC 在 MNIST、STL-10 和 CIFAR-10 数据集上取得了最佳性能。与次优方法相比，Self-CC 在这三个数据集上的准确率分别提高了 0.73%、1.46% 和 1.00%。尽管在 USPS 数据集上，Self-CC 的表现略低于 LGG，但差距仅为 0.19%，即 13 个样本。然而，在其他数据集上，特别是 STL-10 和 CIFAR-10，Self-CC 的表现明显优于 LGG。此外，深度聚类方法的性能远远优于传统聚类方法，这种更好的表现表明，深度神经网络的表征能力可以有效缓解维度灾难带来的负面影响。

SCAN、IDCEC 和 RUC 是多阶段深度聚类方法，它们直接使用嵌入特征来求解聚类分配，而不引入目标分布。这三种多阶段方法的整体性能普遍弱于同步深度聚类方法，这验证了目标分布在提高聚类性能方面的有效性。对于同步深度聚类方法（除 SCAN、IDCEC 和 RUC 之外的其他深度方法），Self-CC 采用自动求解目标分布的机制，比其他需要手动设计目标分布的方法表现更优。此外，与 RUC 及其他忽略错误分配的聚类方法的比较也表明，误分配检测和校正机制可以有效缓解误分配的累积，从而提高聚类性能。

需要指出的是，根据 RUC 论文的实现细节，其聚类是基于 SCAN 优化后的聚类模型进行的。因此，为了保证比较的公平性，基于与 Self-CC 相同的特征提取器运行了已发布的 RUC 代码。相比 RUC，Self-CC 在 STL-10 数据集上的 ACC 提高了 4.54%、NMI 提高了 2.21%、ARI 提高了 3.91%。这些实验结果表明，在考虑误分配校正的基础上，自动求解目标分布可以有效提升聚类性能。

伪半监督方法，这个方法的性能看起来还是不错的。。。