2024《Three-way clustering: Foundations, survey and challenges》

一、研究动机与核心思想

传统聚类（称为 两路聚类 ，Two-way Clustering, 2W）将每个样本明确划归为"属于"或"不属于"某个簇，本质上假设簇边界清晰、决策二元。然而，在现实世界中，大量数据存在不确定性 （如缺失值、噪声、模糊边界、样本歧义等），强行做二元归属容易导致高风险误判。

为此，受三支决策 （Three-way Decision, 3WD）理论启发，三路聚类（Three-way Clustering, 3W）被提出：

每个簇由"核心区域"（core）

核心区域（Co）：明确属于该簇的样本；

边缘区域（fringe）：不确定是否属于该簇的样本（部分归属）；

平凡区域（trivial）：明确不属于该簇的样本。

这种划分不仅更贴合人类认知中的"延迟判断"机制 ，也显式建模了聚类过程中的不确定性 ，从而降低决策风险、提升鲁棒性。

二、系统性分类框架

作者将现有 3W 聚类方法分为三大类，逻辑清晰：

胚胎型 3W 聚类 （Embryonic Form）

指在 3W 概念正式提出前，已蕴含三区域思想的早期方法：
- 粗糙集聚类（Rough Clustering）：用上下近似集刻画簇；
- 区间集聚力（Interval Set Clustering）：用上下界定义簇；
- 影子集聚类 （Shadowed Set Clustering）：用核心与影子区域表示不确定性。
  局限：部分方法允许空核心，或未完全满足 3W 聚类的公理化定义。
基于评估函数的 3W 聚类 （Evaluation-based）

核心思想：设计一个评估函数 ( f(x_i, C_t) ) 衡量样本 (x_i) 与簇 (C_t) 的关联强度，并通过一对阈值 ((\alpha, \beta)) 划分三区域：
- ( f \geq \alpha ) → 核心；
- ( \beta < f < \alpha ) → 边缘；
- ( f \leq \beta ) → 平凡。
  代表性工作：
- 3W-k-means、3W-DBSCAN、3W-谱聚类、3W-密度峰值聚类；
- 针对缺失数据、多视图数据、不均衡学习等场景的扩展。
  挑战：阈值通常需人工设定，对结果敏感。
基于算子的 3W 聚类 （Operator-based）

不依赖阈值，而是通过数学或图像处理算子直接生成三区域：
- CE3（基于数学形态学）：用"收缩"（erosion）得核心，"膨胀"（dilation）得支撑集；
- RE3WC（基于空间滤波）：用最小/最大滤波实现收缩/膨胀；
- 图像模糊-锐化法 ：模糊得核心，原图减模糊得边缘。
  优势：避免阈值选择，更具自适应性。

此外，文章还梳理了：

自适应 3W 聚类：动态调整阈值（如基于引力、遗传算法、邻域稳定性）；
集成 3W 聚类：融合多个基聚类结果生成稳健三区域。

三、应用与挑战

应用领域

机器学习：特征选择、属性约简、主动学习（利用边缘样本指导标注）；
多视图学习：用 3W 处理视图间不一致性；
医疗诊断：识别高风险与不确定病例；
概念格简化 、群体决策 、区间预测等。

核心挑战与未来方向

算法层面：
- 如何将经典 2W 算法（如 GMM、层次聚类）系统性转化为 3W；
- 开发无需预设簇数的 3W 算法；
- 探索基于非标准集合论（如直觉模糊集、粗糙模糊集）的 3W 模型。
评估层面：
- 缺乏专门的 3W 聚类评估指标。现有指标（如 ACC、NMI、Silhouette）仅适用于硬聚类，无法衡量"边缘区域"的质量；
- 未来需设计双指标体系 （如分别评估核心与边缘），或引入风险-收益权衡度量。
应用层面：
- 拓展至图聚类 、流数据聚类 、深度 3W 聚类等前沿场景；
- 在安全关键领域（如医疗、金融）验证其"降低误判风险"的实际价值。

四、总结评价

本文是三路聚类领域首篇系统性综述，具有以下突出贡献：

首次形式化定义 3W 聚类的数学框架，厘清其与 2W 聚类的本质区别；
提出清晰的三分类体系，涵盖从理论雏形到现代自适应方法；
通过文献计量分析（2013--2023），揭示领域发展脉络与研究热点；
明确指出评估指标缺失这一关键瓶颈，为后续研究指明方向。

该文不仅为研究者提供了方法选型与设计的路线图 ，更强调了"不确定性建模"在无监督学习中的重要性，对推动聚类从"确定性决策"向"风险感知决策"演进具有深远意义。