[PyTorch][chapter 11][李宏毅深度学习][Semi-supervised Learning]

前言：

这里面简介一下半监督学习，如何利用未打标签的数据集。

重点可以参考一下 Graph-based Approach 方案。

目录：

简介

Semi-supervised Learning for Generative Model

low-density Separation Assumption

Entropy-based Regularization

semi-supervised SVM

Smoothness Assumption

Graph-based Approach

一简介

假设我们已经有了R 组有标签的数据集

还有u 组未打标签的数据集

如何利用这些未打标签的数据训练模型, 称为半监督学习

半监督学习分为两类

transductive learning(直推式学习):

unabeled data is the testing data

Inductive learning(归纳推理学习)

unabeled data is not the testing data

1.1 为什么需要半监督学习

现实生活中,存在大量未打标签的数据集，需要充分利用这种未打标签的数据集

对模型性能的提升非常有帮助.

1.2 为什么半监督学习对分类有帮助呢？

未打标签的数据集分布也可以用于模型分类.如上图分类猫狗的例子：

如果只考虑背景颜色（蓝色,橙色点）其分类边界是红色。但是加入

灰色的未打标签的数据集进行考虑，分类边界就会发生变化.

二 Semi-supervised Learning for Generative Model

预置条件：

根据已有的标签集得到

迭代流程：

E步 step1 : 计算未打标签的数据集后验概率（posterior probability）

M步：step2: 更新模型,计算先验概率

step3: 计算

反复迭代 step1-step3,知道不再发生变化

它的理论基础是极大似然估计,对于有标签的数据集：

针对有标签和无标签的数据集：

其中

三 low-density Separation

其典型的代表是self-train

1: 通过已打过标签的数据集训练模型，得到分类器

2: 应用分类器,对未打标签的数据集进行分类，得到

,得到伪标签

3：从未打标签的数据集中，选择一部分置信度高的添加到已打

标签的数据集中,重新训练模型

但是做回归算法的时候，不能使用该方案，做分类的时候，

采用Hard-label 方案

四 Entropy-based Regularization

这种方案在训练的时候，直接加入unlabeled data 作为正规化项。

我们训练得到的模型，期望其在unlabeled data上面的Entropy 越小越好

（代表其某一类分类概率特别高）

五 semi-supervised SVM

半监督SVM的数学步骤可以分为以下几个步骤：

步骤1：构建初始分类器

首先，我们使用少量的标记数据来构建一个初始的支持向量机分类器。这个分类器将在已知数据上找到一个良好的决策边界.

步骤2：利用未标记数据

然后，我们引入未标记数据。未标记数据不会直接影响初始分类器的决策边界，但它们会在训练过程中起到重要作用.

步骤3：半监督优化

半监督SVM通过考虑未标记数据的分布，调整决策边界以提高分类性能。这通常通过引入正则化项来实现，以平衡标记数据和未标记数据的影响.

步骤4：重复迭代

我们重复执行半监督优化的过程，直到达到预定的迭代次数或决策边界稳定。这个过程将最大化分类性能，并充分利用未标记数据

原文链接：https://blog.csdn.net/DeepViewInsight/article/details/132958722