模式识别与机器学习 | 第十章 半监督学习

半监督学习:同时利用有标注数据和无标注数据

半监督学习的三个假设

  • 高密度区域平滑假设(生成模型)

高密度空间中,两个点x1,x2距离比较近,对应输出y1,y2也相近

  • 低密度区域分隔假设(半监督SVM)

决策边界应该在低密度区域/聚类假设:如果两个点在同一个簇,很可能属于同一类

  • 流行假设(基于图的算法)

高维数据大致分布在低维流形上;邻近的样本拥有相似的输出;临近程度用相似程度刻画

半监督学习算法:至少熟悉一种算法原理

自我训练、多视角学习、生成模型、半监督SVM、基于图的算法

归纳式学习vs直推式学习

  • 归纳式学习:

给定训练数据有标注样本,无标注样本(远远多于)

学习一个函数用于预测新来的测试样本的标签

学习一个函数能被应用到测试数据上

例如:自我训练、多视角学习

  • 直推式学习

给定训练数据有标注样本,无标注样本(远远多于)

可以没有显示的学习函数,所关心的是在无标注样本上的预测

无标注数据是测试数据集合并且在训练时可以使用

例如:基于图的方法(构建、加权、推理)、标签传播算法

自我训练

思想:假设输出的高度置信的预测都是正确的

自学习算法:从有标签样本中学习 ;对无标签的样本计算预测结果;把加入到有标签数据中,重复以上过程

改进:把加入到有标签数据中时,为每条数据按置信度赋予权重;仅把置信度高的加入到有标签样本中

例子:基学习器KNN;图像识别,图像分类;AlphaGo Zero

优点:最简单的半监督学习方法

是一种wrapper方法,可应用到已有的(复杂)分类器上

经常用于实际任务中,例如,自然语言处理任务中

缺点:早期的错误会强化(解决方案:数据置信度分数低于某个阈值将其标签去掉)

在收敛方面没有保障(也有特例自我训练改进EM算法,有部分如线性函数存在封闭的特殊情况)

多视角学习/协同训练

假设:特征可分裂,相对独立,且训好分类器是充分的

协同训练算法:有标签样本训练两个分类器;这两个分类器对无标签样本预测;将预测结果置信度最高的k个加入到对方的有标签样本中;重复上述步骤

**优点:**简单的wrapper方法,可以被用到已有的各种分类器

相较于自我训练,对错误不那么敏感

**缺点:**自然的特征分裂可能不存在

使用全部特征的模型可能效果更好

生成模型

例子:高斯混合模型、混合多项分布、隐马尔可夫模型

优点:清晰,基于良好理论基础的概率框架

如果模型接近真实分布,将非常有效

缺点:验证模型的正确性比较困难、模型可辨识问题、EM局部最优

半监督SVM

简称直推式SVM

基本假设:来自不同类别的无标记数据之间会被较大的间隔隔开

基本思想:遍历所有种可能的标注,为每一种标注构建一个标准的SVM,选择间隔最大的SVM

基于图的算法

假设:有标注和无标注数据在一个途中,图中被"紧密"连接的点趋向于有相同的标签。即,临近节点应该有相似的标签

常见算法:最小割、标签传播、标签扩散、调和函数法
优点:清晰的数学框架
能够被扩展到有向图
缺点: 图质量差的时候性能差
对图的结构和权重敏感
存储需求大
新样本

相关推荐
胡耀超1 分钟前
霍夫圆变换全面解析(OpenCV)
人工智能·python·opencv·算法·计算机视觉·数据挖掘·数据安全
jndingxin9 分钟前
OpenCV CUDA 模块中用于在 GPU 上计算两个数组对应元素差值的绝对值函数absdiff(
人工智能·opencv·计算机视觉
jerry6099 分钟前
LLM笔记(五)概率论
人工智能·笔记·学习·概率论
硅谷秋水11 分钟前
学习以任务为中心的潜动作,随地采取行动
人工智能·深度学习·计算机视觉·语言模型·机器人
Tiny番茄40 分钟前
Multimodal models —— CLIP,LLava,QWen
人工智能
Wnq100721 小时前
工业场景轮式巡检机器人纯视觉识别导航的优势剖析与前景展望
人工智能·算法·计算机视觉·激光雷达·视觉导航·人形机器人·巡检机器人
无心水2 小时前
【程序员AI入门:模型】19.开源模型工程化全攻略:从选型部署到高效集成,LangChain与One-API双剑合璧
人工智能·langchain·开源·ai入门·程序员ai开发入门·程序员的 ai 开发第一课·程序员ai入门
有梦想的攻城狮2 小时前
大语言模型与多模态模型比较
人工智能·语言模型·自然语言处理·llm·大语言模型
九章云极AladdinEdu3 小时前
GPU与NPU异构计算任务划分算法研究:基于强化学习的Transformer负载均衡实践
java·开发语言·人工智能·深度学习·测试工具·负载均衡·transformer
量子-Alex3 小时前
【目标检测】RT-DETR
人工智能·目标检测·计算机视觉