AI学习第二天--监督学习 半监督学习 无监督学习

目录

[1. 监督学习(Supervised Learning)](#1. 监督学习(Supervised Learning))

比喻:

技术细节:

形象例子:

[2. 无监督学习(Unsupervised Learning)](#2. 无监督学习(Unsupervised Learning))

比喻:

技术细节:

形象例子:

[3. 半监督学习(Semi-Supervised Learning)](#3. 半监督学习(Semi-Supervised Learning))

比喻:

技术细节:

形象例子:

[4. 三者的对比与选择](#4. 三者的对比与选择)

表格总结:

[5. 实际案例对比](#5. 实际案例对比)

案例:电商平台用户分群

[6. 关键逻辑总结](#6. 关键逻辑总结)


1. 监督学习(Supervised Learning)

比喻

老师带着学生做题 ,每道题都有标准答案 ,学生通过练习学会解题方法。
核心有标签的数据(答案已知)。


技术细节
  • 数据形式 :输入(X)+ 标签(Y)。
    • 例如:
      • 图像分类:图片(X) + 类别标签(Y,如"猫"或"狗")。
      • 房价预测:房屋面积、位置(X) + 房价(Y)。
  • 目标:模型学习输入到标签的映射关系(如 f(X)=Yf(X)=Y)。
  • 常见算法 :线性回归、决策树、神经网络等。

形象例子

场景:学生学数学。

  1. 老师
    • 给出题目和答案(如"3+5=?" → 答案"8")。
    • 学生通过大量练习(如1000道题+答案)掌握加法规律。
  2. 模型
    • 输入"3+5",输出"8"。
    • 监督学习的关键:每一步都有明确的"正确答案"指导模型学习。

2. 无监督学习(Unsupervised Learning)

比喻

学生自己探索一堆物品 ,没有老师指导,只能通过观察找出物品的共同特征或分组
核心无标签的数据(没有答案,需自行发现模式)。


技术细节
  • 数据形式 :仅有输入(X),无标签(Y)。
    • 例如:
      • 客户数据(年龄、收入、消费习惯) → 分群(如高收入用户群、低频购物群)。
      • 文本语料库 → 聚类为不同主题。
  • 目标 :模型发现数据中的内在结构(如分组、降维)。
  • 常见算法 :K-Means聚类、PCA降维、自编码器等。

形象例子

场景:学生整理图书馆的书。

  1. 学生
    • 看到一堆书,但没有分类标签(如"科幻""历史")。
    • 通过观察书的内容、作者、关键词,将书分为"小说""科技""历史"等类别。
  2. 模型
    • 输入客户数据,输出"客户A属于高价值用户群"。
    • 无监督学习的关键:没有答案,模型自己"创造"规则。

3. 半监督学习(Semi-Supervised Learning)

比喻

学生大部分时间自己探索,但偶尔老师给出几个题目的答案 ,学生结合少量答案和大量无标签数据学习。
核心少量有标签数据 + 大量无标签数据


技术细节
  • 数据形式
    • 少量 有标签数据(X, Y) + 大量无标签数据(仅X)。
    • 例如:
      • 医疗数据:100个标注的X光片(有疾病标签) + 10,000个未标注的X光片。
  • 目标:利用少量标签和大量无标签数据提升模型性能。
  • 常见方法
    • 标签传播:用少量标签数据推测无标签数据的标签。
    • 自训练:模型先用有标签数据训练,再预测无标签数据,将高置信度预测结果作为新标签。

形象例子

场景:学生学画画,但只有少量带标签的画作。

  1. 老师
    • 给出10张画作并标注"风景""人物"等标签。
    • 其他1000张画作无标签。
  2. 学生
    • 先用10张带标签的画学习特征(如"人物画有五官")。
    • 再观察无标签画作,推测它们的类别(如"这张画有山和树 → 可能是风景")。
  3. 模型
    • 输入新画作,输出"风景"或"人物"。
    • 半监督学习的关键:用少量标签引导,大量无标签数据扩展知识。

4. 三者的对比与选择

表格总结
类型 数据形式 目标 适用场景 优缺点
监督学习 X(输入) + Y(标签) 学习输入到标签的映射 分类、回归(如图像识别、房价预测) 需大量标注数据,但模型性能通常更好。
无监督学习 X(输入)无标签 发现数据内在结构 聚类、降维(如客户分群、文本主题分析) 不需要标注数据,但结果可能需要人工解释。
半监督学习 少量(X,Y) + 大量X 结合有/无标签提升性能 标注成本高但数据量大的场景(如医疗、图像) 兼顾监督和无监督的优点,但实现复杂,需平衡两者。

5. 实际案例对比

案例:电商平台用户分群
  • 监督学习
    • 数据:用户行为数据(点击、购买) + 标签("高价值用户"或"低价值用户")。
    • 模型:训练分类器,预测新用户是否是高价值用户。
  • 无监督学习
    • 数据:用户行为数据(无标签)。
    • 模型:聚类为"高活跃用户群""价格敏感用户群"等。
  • 半监督学习
    • 数据:100个标注用户(高/低价值) + 10,000个无标签用户。
    • 模型:用少量标签引导聚类,提升用户分群的准确性。

6. 关键逻辑总结

  • 监督学习有答案,学得准,但成本高
  • 无监督学习无答案,靠探索,成本低但需解释
  • 半监督学习少量答案+大量数据,性价比高,但需平衡

用一句话概括:
"监督学习是'有答案的考试',无监督学习是'无答案的探险',半监督学习是'带着少量答案去探险'。"

相关推荐
GIS数据转换器5 分钟前
北斗+多技术融合地面沉降监测:精准守护城市安全
大数据·人工智能·物联网·无人机·智慧城市
背水19 分钟前
音频大语言模型可作为描述性语音质量评价器
人工智能·语言模型·音视频·语音识别
带电的小王32 分钟前
【大模型基础_毛玉仁】3.1 Prompt 工程简介
人工智能·语言模型·prompt
机器之心1 小时前
Django创造者Simon Willison分享:我如何使用LLM帮我写代码
人工智能
油泼辣子多加1 小时前
【计算机视觉】工业表计读数(3)--指针及刻度关键点识别
人工智能·计算机视觉
机器之心1 小时前
原作者带队再次改造xLSTM,7B模型速度最快超Mamba 50%,权重代码全开源
人工智能
搬砖的阿wei1 小时前
TensorRT:高性能深度学习推理的利器
人工智能·深度学习·tensorrt
港 澳 在 线1 小时前
马蜂窝携手腾讯云接入DeepSeek,率先应用于旅游AI智能应用“AI游贵州”
人工智能·腾讯云·旅游
jndingxin1 小时前
OpenCV图像拼接(3)图像拼接的类cv::detail::BestOf2NearestMatcher
人工智能·opencv·计算机视觉
不忘不弃1 小时前
一般矩阵的转置
人工智能·算法·矩阵