AI学习第二天--监督学习半监督学习无监督学习

数据形式 ：输入（X）+ 标签（Y）。
- 例如：
  - 图像分类：图片（X） + 类别标签（Y，如"猫"或"狗"）。
  - 房价预测：房屋面积、位置（X） + 房价（Y）。
目标：模型学习输入到标签的映射关系（如 f(X)=Yf(X)=Y）。
常见算法 ：线性回归、决策树、神经网络等。

场景：学生学数学。

学生自己探索一堆物品 ，没有老师指导，只能通过观察找出物品的共同特征或分组 。
核心：无标签的数据（没有答案，需自行发现模式）。

数据形式 ：仅有输入（X），无标签（Y）。
- 例如：
  - 客户数据（年龄、收入、消费习惯） → 分群（如高收入用户群、低频购物群）。
  - 文本语料库 → 聚类为不同主题。
目标：模型发现数据中的内在结构（如分组、降维）。
常见算法 ：K-Means聚类、PCA降维、自编码器等。

场景：学生整理图书馆的书。

学生大部分时间自己探索，但偶尔老师给出几个题目的答案 ，学生结合少量答案和大量无标签数据学习。
核心：少量有标签数据 + 大量无标签数据。

数据形式 ：
- 少量有标签数据（X, Y） + 大量无标签数据（仅X）。
- 例如：
  - 医疗数据：100个标注的X光片（有疾病标签） + 10,000个未标注的X光片。
目标：利用少量标签和大量无标签数据提升模型性能。
常见方法 ：
- 标签传播：用少量标签数据推测无标签数据的标签。
- 自训练：模型先用有标签数据训练，再预测无标签数据，将高置信度预测结果作为新标签。

场景：学生学画画，但只有少量带标签的画作。

类型	数据形式	目标	适用场景	优缺点
监督学习	X（输入） + Y（标签）	学习输入到标签的映射	分类、回归（如图像识别、房价预测）	需大量标注数据，但模型性能通常更好。
无监督学习	X（输入）无标签	发现数据内在结构	聚类、降维（如客户分群、文本主题分析）	不需要标注数据，但结果可能需要人工解释。
半监督学习	少量(X,Y) + 大量X	结合有/无标签提升性能	标注成本高但数据量大的场景（如医疗、图像）	兼顾监督和无监督的优点，但实现复杂，需平衡两者。

用一句话概括：
"监督学习是'有答案的考试'，无监督学习是'无答案的探险'，半监督学习是'带着少量答案去探险'。"

AI学习第二天--监督学习 半监督学习 无监督学习