sheng的学习笔记-AI-半监督学习

AI目录:sheng的学习笔记-AI目录-CSDN博客

基础知识

什么是半监督学习

我们在丰收季节来到瓜田,满地都是西瓜,瓜农抱来三四个瓜说这都是好瓜,然后再指着地里的五六个瓜说这些还不好,还需再生长若干天。基于这些信息,我们能否构建一个模型,用于判别地里的哪些瓜是已该采摘的好瓜?显然,可将瓜农告诉我们的好瓜、不好的瓜分别作为正例和反例来训练一个分类器

但如果瓜农无法提供大量的好瓜/不好的瓜 的标记,那就需要根据已经提供的少量标记,来学习大量未标记的数据

让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习(semi-supervised learning)。

半监督使用场景

半监督学习的现实需求非常强烈,因为在现实应用中往往能容易地收集到大量未标记样本,而获取"标记"却需耗费人力、物力。​"有标记数据少,未标记数据多"这个现象在互联网应用中更明显,

例如,在进行计算机辅助医学影像分析时,可以从医院获得大量医学影像,但若希望医学专家把影像中的病灶全都标识出来则是不现实的。

例如在进行网页推荐时需请用户标记出感兴趣的网页,但很少有用户愿花很多时间来提供标记,因此,有标记网页样本少,但互联网上存在无数网页可作为未标记样本来使用。

未标记样本的分布与已标记样本的分布的关联做出假设

要利用未标记样本,必然要做一些将未标记样本所揭示的数据分布信息与类别标记相联系的假设。

聚类假设

最常见的是"聚类假设"(cluster assumption),即假设数据存在簇结构,同一个簇的样本属于同一个类别,由于待预测样本与正例样本通过未标记样本的"撮合"聚在一起,与相对分离的反例样本相比,待判别样本更可能属于正类

流形假设

另一种常见的假设是"流形假设"(manifold assumption),即假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值。​"

邻近"程度常用"相似"程度来刻画,因此,流形假设可看作聚类假设的推广,但流形假设对输出值没有限制,因此比聚类假设的适用范围更广,可用于更多类型的学习任务。事实上,无论聚类假设还是流形假设,其本质都是"相似的样本拥有相似的输出"这个基本假设。

纯(pure)半监督学习和直推学习(transductive learning)

纯(pure)半监督学习

假定训练数据中的未标记样本并非待预测的数据,是基于"开放世界"假设,希望学得模型能适用于训练过程中未观察到的数据

直推学习(transductive learning)

假定学习过程中所考虑的未标记样本恰是待预测数据,学习的目的就是在这些未标记样本上获得最优泛化性能,基于"封闭世界"假设,仅试图对学习过程中观察到的未标记数据进行预测

参考文章:

统计学习 - 12.半监督学习 - 《AI算法工程师手册》 - 书栈网 · BookStack

书:机器学习(号称西瓜书)

相关推荐
hacker7071 分钟前
openGauss 在K12教育场景的数据处理测评:CASE WHEN 实现高效分类
人工智能·分类·数据挖掘
暖光资讯25 分钟前
前行者获2025抖音最具影响力品牌奖,亮相上海ZFX装备前线展,引领外设行业“文化科技”新浪潮
人工智能·科技
guslegend27 分钟前
第3章:SpringAI进阶之会话记忆实战
人工智能
陈橘又青1 小时前
100% AI 写的开源项目三周多已获得 800 star 了
人工智能·后端·ai·restful·数据
中杯可乐多加冰1 小时前
逻辑控制案例详解|基于smardaten实现OA一体化办公系统逻辑交互
人工智能·深度学习·低代码·oa办公·无代码·一体化平台·逻辑控制
IT_陈寒2 小时前
Redis实战:5个高频应用场景下的性能优化技巧,让你的QPS提升50%
前端·人工智能·后端
龙智DevSecOps解决方案2 小时前
Perforce《2025游戏技术现状报告》Part 1:游戏引擎技术的广泛影响以及生成式AI的成熟之路
人工智能·unity·游戏引擎·游戏开发·perforce
大佬,救命!!!2 小时前
更换适配python版本直接进行机器学习深度学习等相关环境配置(非仿真环境)
人工智能·python·深度学习·机器学习·学习笔记·详细配置
星空的资源小屋2 小时前
VNote:程序员必备Markdown笔记神器
javascript·人工智能·笔记·django
梵得儿SHI2 小时前
(第七篇)Spring AI 基础入门总结:四层技术栈全景图 + 三大坑根治方案 + RAG 进阶预告
java·人工智能·spring·springai的四大核心能力·向量维度·prompt模板化·向量存储检索