Multi-view Clustering: A Survey | 论文阅读笔记

[论文链接](Multi-view clustering: A survey | TUP Journals & Magazine | IEEE Xplore)

Multi-view Clustering: A Survey

数据是从不同的来源生成的或从不同的视图观察到的,这些数据被称为多视图数据

在这样的数据中,对于特定的知识发现任务,每个单独的视图都有其特定的属性;然而,不同的视图往往包含应加以利用的补充信息。多视图聚类(MvC)旨在利用多个视图之间的互补和一致信息

本文总结了大量的多视图聚类算法,根据所涉及的机制和原理提供了一个分类法,并将这些算法分为五类,即协同训练式算法、多核学习、多视图图聚类、多视图子空间聚类和多任务多视图聚类。其中,多视图图聚类又分为基于图、基于网络和基于谱的方法。多视图子空间聚类又分为基于子空间学习的方法和基于非负矩阵分解的方法。

01.介绍:

本文主要研究一种无监督学习技术 ,即聚类

聚类算法的基本思想是根据一些标准对一组数据对象进行划分,使相似的对象被分组到同一个聚类中,不同的对象被划分到不同的聚类中。

在MvC的背景下,所有算法都必须精心处理的一个固有问题(也是目标)是找到一种方法来最大化每个视图中的聚类质量,同时考虑不同视图之间的聚类一致性。不完整的多视图数据也对MvC提出了挑战,其中一些数据对象可能会错过对一个视图的观察(即,丢失对象),或者可能仅对其在该视图上的部分特征可用(即,缺失特征)。

  • 协同训练式算法:这类方法通过使用协同训练策略来处理多视图数据。它通过使用先验知识或相互学习知识来引导不同视图的聚类。通过反复执行此策略,所有视图的聚类结果趋于一致,从而在所有视图中达成最广泛的共识。
  • 多核学习:这类方法使用与不同视图相对应的预定义内核,然后线性或非线性地组合这些内核,以提高聚类性能。
  • 多视图图聚类:这类方法试图在所有视图中找到一个融合图(或网络),然后在融合图上使用图切割算法或其他技术(例如谱聚类)来产生聚类结果。
  • 多视图子空间聚类:从所有视图的所有特征子空间学习统一的特征表示(该特征表示将输入到模型中进行聚类),该类别通过假设所有视图共享该表示。典型的模型包括子空间学习和非负矩阵分解(NMF)。
  • 多任务多视图聚类:该类别将每个视图与一个任务或多个相关任务联系起来,将任务间知识相互传递,并利用多任务和多视图关系来提高聚类性能。

02.MVC的原则:

本节分析了MvC的两个重要原则,即互补原则共识原则。这两个原则部分地回答了MvC为什么有效,基本假设是什么,最重要的是MvC应该如何建模和执行。

对这两个原则进行简要说明:给定一个具有两个视图的数据对象,该数据对象被映射到一个潜在的数据空间中,如图所示。

从图中,我们可以观察到:(1)个别观点中存在一些成分(A部分和C部分),如观点1中的A部分和观点2中的C部分,即两种观点的互补性 ;(2)对象的一些成分(B部分)是两种观点共有的,即两个观点之间的共识

互补原则:该原则规定应使用多个视图,以便更全面、更准确地描述数据对象。在多视图数据的上下文中,每个单视图都足以用于特定的知识发现任务。然而,不同的观点往往包含相互补充的信息。

共识原则:该原则旨在最大限度地保持多种不同观点的一致性。Dasgupta提出了最大化一致性策略来说明共识原则。

协同训练也是多视图学习中应用最广泛的方案之一。交替地训练标准协同训练算法,以便通过使用学习或通过向彼此提供标记数据来最大化两个未标记数据视图的相互一致性。

03.多视图聚类算法:

01.协同训练式算法:

这类方法旨在最大限度地实现所有视图之间的相互一致,并达成最广泛的共识。

传统协同训练算法的一般过程如图所示。

根据该过程,交替训练算法,以便通过使用先验信息或通过相互学习知识来最大化两个不同视图的一致性。

协同训练的成功主要取决于三个假设

  1. 充分性:每个视图本身就足以完成学习任务;
  2. 兼容性:目标函数对两个视图中协同出现的特征导出高概率相同的预测;
  3. 条件独立性:所有视图都提供条件独立的学习标签。然而,在实践中,通常很难满足条件独立性假设。因此,已经研究了几个较弱的假设。

02.多核学习:

由于多核学习中的核自然对应于不同的视图,因此多核学习已被广泛应用于处理多视图数据。

多核学习方法的一般过程如图所示。

其中使用不同的预定义核来处理不同的视图,然后将这些核线性地或非线性地组合,以获得统一的核。

在MvC背景下,基于多核学习的MvC旨在优化组合一组预定义内核,以提高聚类性能。在这种方法中,一个重要的问题是找到一种方法来选择合适的内核函数,并将这些内核优化组合。

多核学习的一个挑战在于选择合适的核函数(例如,线性核、多项式核和高斯核),将原始低维空间映射到高维空间。多视图数据的一般方法是使用几个核函数的线性组合,同时应考虑不同核的权重,不同视图的权重也是MvC的一个重要因素。

03.多视图图聚类:

图(或网络)被广泛用于表示对象之间的关系,其中每个节点对应于一个数据对象,每个边描述一对对象之间的联系。在实践中,这种关系通常用相似性或亲和性关系来表示,即从数据相似性矩阵生成输入图矩阵。

在多视图场景中,数据对象由多个图捕获。一个常见的假设是,每个单独的图都可以捕获数据的部分信息;同时,所有图都具有相同的底层数据聚类结构。因此,这些图能够通过统一数据对象之间的相关性来相互加强。

多视图数据的基于图的融合过程与下图类似。

多视图图聚类的目的是在所有视图中找到一个融合图,然后在融合图上使用图切割算法或其他技术(如谱聚类)来产生最终的聚类结果。

  • 基于图的MvC: 首先从图像中提取多个特征,这些特征构成了不同的特征视图,然后为每个视图构建一个图。将所有图像分为不同的组,并使用所提出的融合策略构建融合图。为属于不同组的图像分配不同的融合权重,并为同一组内的图像分配相同的融合权重。最后,通过求解公式化的目标函数来学习融合权重,并通过对该融合图进行谱聚类来获得聚类结果。

  • 基于网络的MvC: 大多数基于图的MvC方法通常假设同一组数据对象可用于不同的视图。因此,不同视图中的数据对象之间的关系是一对一的关系。然而在现实生活中一个领域中的对象可能对应于另一个领域的多个对象,这导致了许多映射关系,用网络而不是图形来表示这些关系可能更合适。

  • 基于谱的MvC: 谱聚类是一种经典的数据聚类范式。其基本思想是在任何一对对象之间形成一个成对的相似矩阵,对该相似矩阵进行归一化,并计算该归一化相似矩阵的特征向量(即图拉普拉斯算子)。一般来说,谱聚类方法包括两个耗时的步骤:第一步,构建相似性(或亲和性)图,第二步,计算特征分解。此外,谱聚类的另一个缺点是,大多数谱聚类方法通常不能为处理样本外问题提供自然的扩展。

04.多视图子空间聚类:

从多个子空间学习所有视图数据的新的统一表示,或在构建聚类模型时更容易处理高维数据的潜在空间。

多视图子空间聚类的一般过程如图所示。

它通过两种方式获得了这样一个统一的特征表示:

  • 直接从多个子空间学习一个统一表示

  • 首先学习一个潜在空间,然后得到这个统一表示。最后将这种统一表示输入到现成的聚类模型中,以产生聚类结果。

我们将多视图子空间聚类方法分为两种主要类型:基于子空间学习的方法基于NMF(子空间学习中的一种特殊情况)的方法

  • 基于子空间学习的MvC : 基于子空间学习的MvC试图通过假设从多个低维子空间中提取数据点来从该潜在子空间中找到潜在空间。基于子空间学习的MvC涉及的技术包括子空间学习、子空间聚类、子空间投影、低秩近似张量分解。多视图数据往往是不完整的,即数据对象具有不完整的特征集。基于子空间学习,有人研究了不完全和未标记多视图数据的不完全多视图学习,下图显示了所提出的子空间学习模型。

对于不完整的多视图数据集,它使用投影矩阵将原始特征(文本和图像)投影到潜在空间,该潜在空间明确地捕捉聚类结构。此外,为了进行特征选择,在投影矩阵上施加了群稀疏性。此外,为了增强模型,保留了视图间和视图内数据的相似性。最后,将该潜在空间上的特征应用于聚类任务。

  • 基于非负矩阵分解(NMF)的MvC: NMF最初是作为一种降维技术进行研究的,现在已经成为一种有效的潜在特征学习方法。

05.多任务多视图聚类:

多任务聚类(属于多任务学习领域),将多个相关任务一起执行,并利用这些任务之间的关系来提高单视图数据的聚类性能。通过继承MvC和多任务聚类的特性,多任务多视图聚类(M2vC)用一个或多个任务处理每个单独的视图数据,如图所示。

M2vC的关键步骤是在公共视图中链接特征,以便集成相关任务。

M2vC的主要挑战包括找到一种在每个视图上对任务内聚类建模的方法,以及找到一种方法,当将任务内(任务间)知识相互传递时,利用多任务和多视图关系。

有的工作很难被分配到上述五个类别中的任何一个。包括基于马尔可夫随机场的多模态聚类、基于多视图谱聚类和集成技术的多视图核K-means聚类的多视图聚类集成、基于Kmeans的双层加权MvC和多视图模糊聚类。

04.总结讨论:

  • 协同训练式的算法可以通过交换信息来交互式地增强不同视图的聚类,然而当视图的数量超过三个时,它们是难以处理的。

  • 基于内核的MvC继承了内核的优点,但同时带来了较高的计算复杂度。

  • 多视图图聚类引入了谱图理论,同时依赖于构建的亲和(或相似)矩阵。

  • 多视图子空间聚类方法具有直接的可解释性,也具有初始化依赖性。

  • 多任务多视图继承了多任务聚类和多视图聚类的特性;然而,这仍处于初级阶段。希望这些技术之间有着密切的关系。例如,子空间学习可以在核空间上进行,因此,它在开发MvC的通用框架方面很有价值,该框架继承了不同类别的优点。

05.挑战与未来方向:

  • 视图的正确性:找到一种了解视图是否正确的方法,对MvC来说至关重要。由于MvC利用所有可用的视图来帮助集群性能,因此不正确的视图是非常有害的。尽管有些工作利用了这些带有权重的视图,但错误可能会从一个误导性的视图传播到其他视图。因此,必须在很大程度上解决或减轻这个问题,以确保MvC是有效的。

  • 融合时机:现有MvC在聚类过程中对多视图数据采用三种融合策略,即数据中的融合、投影特征中的融合和结果中的融合。MvC目前的研究工作大多集中在第二种融合策略上。然而,没有任何理论基础来决定哪一个是最好的。为了揭示其本质,需要进行理论和方法研究。

  • 不完整MvC:尽管已经对不完整的多视图数据进行了一些尝试,正如我们在该类别的每一节中提到的那样,不完整的MvC仍然是一个具有挑战性的问题。在现实生活中,数据丢失频繁发生,而对不完全MvC的研究并不广泛。预计将对不完整MvC进行调查。

相关推荐
PersistJiao29 分钟前
在 Spark RDD 中,sortBy 和 top 算子的各自适用场景
大数据·spark·top·sortby
2301_8112743141 分钟前
大数据基于Spring Boot的化妆品推荐系统的设计与实现
大数据·spring boot·后端
Yz98761 小时前
hive的存储格式
大数据·数据库·数据仓库·hive·hadoop·数据库开发
青云交1 小时前
大数据新视界 -- 大数据大厂之 Hive 数据导入:多源数据集成的策略与实战(上)(3/ 30)
大数据·数据清洗·电商数据·数据整合·hive 数据导入·多源数据·影视娱乐数据
武子康1 小时前
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结
java·大数据·数据仓库·hive·hadoop·sql·hdfs
武子康1 小时前
大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本
java·大数据·数据仓库·hive·hadoop·mysql
时差9531 小时前
Flink Standalone集群模式安装部署
大数据·分布式·flink·部署
锵锵锵锵~蒋1 小时前
实时数据开发 | 怎么通俗理解Flink容错机制,提到的checkpoint、barrier、Savepoint、sink都是什么
大数据·数据仓库·flink·实时数据开发
二进制_博客1 小时前
Flink学习连载文章4-flink中的各种转换操作
大数据·学习·flink
大数据编程之光1 小时前
Flink入门介绍
大数据·flink