半监督学习:低密度分离假设 (Low-Density Separation Assumption)

半监督学习(SSL)的目标是借助未标记数据辅助训练,以期获得比仅用带标签的监督学习范式更好的效果。但是,SSL的前提是数据分布需满足某些假设。否则,SSL可能无法提升监督学习的效果,甚至会因误导性推断降低预测准确性。

半监督学习的相关假设包括:Self-training assumptionCo-training assumptionGenerative model assumptionCluster assumptionLow-density separationManifold assumption

  • 自训练假设:自训练模型的预测,尤其是高置信度的预测,往往是正确的。当该假设成立时,这些高置信度预测可视为真实标签。

  • 聚类假设:若两点 x1 和 x2 属于同一簇,则它们应属于同一类别。该假设指的是,单一类别的数据倾向于形成一个簇,且当数据点可通过不经过任何低密度区域的短曲线连接时,它们属于同一类簇。根据该假设,决策边界不应穿过高密度区域,而应位于低密度区域。因此,学习算法可利用大量未标记数据调整分类边界。

  • 低密度分离假设:决策边界应位于低密度区域,而非穿过高密度区域。低密度分离假设与聚类假设密切相关。我们可以从另一角度理解聚类假设:类别由低密度区域分隔。因为高密度区域的决策边界会将一个簇分割为两个不同类别,这会违背聚类假设。

以上翻译了文献[1]中的部分内容,具体内容请看原文献。总的来说,自训练假设 是用带标签训练模型,训练好的模型用于预测未标注的数据,由此获得了相应的伪标签。聚类假设低密度分离假设基本上相同,均认为决策边界位于低密度区域。

低密度分离假设的直观理解

低密度分离假设是半监督学习中一个核心且重要的理论前提。它描述了数据在特征空间中的分布特性,并为许多半监督学习方法(如熵最小化)提供了为什么利用未标记数据有效的理论依据。

如下图,当决策边界位于低密度区域时,模型对输入的数据有确定性的预测(低熵),表明意这个点位于某个类别的高密度簇内部,远离边界。

当未标记的数据处于决策边界附近,模型难以对这些未标记的数据进行分类,即做出高熵(不确定)的预测。

因此,熵最小化损失函数惩罚模型对未标记数据点做出高熵(不确定)的预测,强迫模型对这些点也必须给出低熵(自信、确定)的预测。表现为:

  • 调整内部表示 (Feature Learning): 让特征空间中原本靠近的不同类别点变得更容易区分(拉开距离),在它们之间创造出低密度间隙。
  • 移动决策边界 (Boundary Adjustment): 把边界从当前穿过的、可能还是高密度混杂区(或高密度区边缘)的地方,推离到旁边数据更稀疏的低密度区域。

参考

1\] Yang, Xiangli, et al. "A survey on deep semi-supervised learning." *IEEE transactions on knowledge and data engineering* 35.9 (2022): 8934-8954.

相关推荐
zyq~5 天前
【课堂笔记】标签传播算法Label Propagation Algorithm(LPA)
人工智能·笔记·算法·机器学习·概率论·lpa·半监督学习
CH3_CH2_CHO3 个月前
【机器学习】算法分类
算法·机器学习·强化学习·无监督学习·半监督学习·有监督学习
我感觉。3 个月前
【机器学习chp12】半监督学习(自我训练+协同训练多视角学习+生成模型+半监督SVM+基于图的半监督算法+半监督聚类)
人工智能·算法·机器学习·半监督学习
IT古董5 个月前
【机器学习】机器学习的基本分类-半监督学习-Ladder Networks
学习·机器学习·分类·半监督学习
源于花海5 个月前
一文快速预览经典深度学习模型(二)——迁移学习、半监督学习、图神经网络(GNN)、联邦学习
深度学习·迁移学习·图神经网络·gnn·联邦学习·半监督学习
IT古董5 个月前
【机器学习】机器学习的基本分类-半监督学习(Semi-supervised Learning)
学习·机器学习·分类·半监督学习
新手小白勇闯新世界7 个月前
半监督学习----西瓜书机器学习笔记及理解(五)
笔记·学习·机器学习·半监督学习
顶呱呱程序1 年前
182基于matlab的半监督极限学习机进行聚类
机器学习·matlab·聚类·elm·半监督学习·模式识别
zh-jp1 年前
f-VAEGAN-D2:VAE+GAN处理零样本学习问题
机器学习·无监督学习·半监督学习·zero-shot