机器学习与深度学习基础(二):无监督学习与半监督学习

文章目录

一、非监督学习基础认知

1.1 与监督学习的核心区别

非监督学习与监督学习最本质的差异在于数据依赖的不同:监督学习需要同时具备输入数据和对应的标签数据(即"标准答案"),模型通过学习输入与标签之间的映射关系来完成预测等任务;而非监督学习不依赖标签数据,仅需向模型提供原始输入数据,模型自主从数据中挖掘规律和特征。

1.2 非监督学习的关键特性

非监督学习的核心价值在于其探索性------它无需预先设定明确的学习目标(如分类任务中的类别数量、回归任务中的预测指标),而是通过算法自主揭示数据内部潜在的关系,例如数据的聚类结构、特征间的关联程度、数据的低维表示等,适用于数据标签稀缺或未知数据分布的场景。

1.3 非监督学习的主要任务类型

基于数据探索的目标不同,非监督学习主要涵盖三大类核心任务:

  • 聚类:将相似的样本自动归为一类,使同类样本内部差异最小化、不同类别间差异最大化,实现数据的自动分类;

  • 降维:在保留数据核心信息的前提下,减少数据的特征维度,解决高维数据的稀疏性和计算复杂度问题;

  • 异常检测:识别数据集中与大部分样本分布规律不符的"异常样本",适用于故障诊断、欺诈识别等场景。

二、非监督学习核心算法简介

2.1 k-means算法(聚类)

k-means是最经典的划分式聚类算法,核心目标是将数据划分为k个预设数量的类别。

其核心流程为通过迭代优化实现"最小平方误差和"(SSE)的最小化:首先随机选择k个样本作为初始聚类中心;然后计算每个样本到各聚类中心的距离,将样本分配到距离最近的聚类中心所属类别;接着重新计算每个类别的均值作为新的聚类中心;重复"分配-更新"过程,直至聚类中心不再明显变化或达到迭代次数上限。

该算法简洁高效,但对初始聚类中心的选择敏感,且需预先确定k值。

核心: 将相似的数据点聚集在一起,不相似的数据点分开,通过迭代优化簇的质心位置来实现最优聚类。

  • 目标函数: minimize Σ Σ ||xi - μj||²
    其中 xi 是数据点,μj 是第j个聚类中心

(1)算法步骤

(2)数据预处理

K-means算法对数据的规模敏感。如果不同特征的数值范围差异很大,算法会偏向于数值较大的特征,导致聚类效果不佳。

  • 常见预处理步骤:

(3)如何选择最佳K值

选择合适的K值是K-means算法成功的关键。K值选择不当会导致过度聚类或聚类不足,影响最终结果的质量。

K值选择困难的原因:K-means需要预先指定簇的数量,但实际数据中的真实簇数往往未知。选择过小的K会导致不同的群体被错误地合并;选择过大的K会导致同一群体被不必要地分割。


(4)K-means应用

  • 市场细分:根据客户行为、购买习惯等特征将客户分组,制定针对性营销策略。
  • 图像分割:将图像像素按颜色相似性分组,用于图像处理和计算机视觉。
  • 数据压缩:通过聚类减少数据的维度,实现数据压缩和降噪。
  • 推荐系统:将用户按喜好聚类,为同一群体推荐相似的内容。

2.2 主成分分析PCA(降维)

PCA是一种线性降维算法,核心思想是通过线性变换将高维数据映射到低维空间,且保证映射后的数据在低维空间中的方差最大化(即保留数据的核心信息)。

其关键步骤包括:对原始数据进行标准化处理;计算数据的协方差矩阵,反映特征间的关联程度;求解协方差矩阵的特征值和特征向量,特征值越大表示对应特征向量方向上的数据方差越大;选择前m个最大特征值对应的特征向量构成投影矩阵,将原始高维数据投影到该矩阵上,得到m维的低维表示。PCA能有效去除特征间的冗余信息,但仅适用于线性可分的数据。

找到数据中方差最大的方向(主成分),这些方向能够最好地描述数据的变化模式。第一主成分解释了数据中最大的方差,第二主成分解释了剩余方差中最大的部分,以此类推。

(1)为什么要找方差最大的方向

  • 方差代表信息量
    方差大 = 数据在该方向上变化大 = 包含更多区分信息
    方差小 = 数据在该方向上变化小 = 主要是噪声或冗余
  • 几何直观理解
    想象一个椭圆形数据分布:
    长轴方向:数据点分散度大,能很好地区分不同样本
    短轴方向:数据点比较集中,区分度小
  • 信息保留原理
    当我们需要降维时,选择方差最大的方向能够:
    最大化保留原始数据的信息
    最小化信息损失
    保持数据点之间的相对关系
  • 数学优化目标
  • 数据变换过程
    原始数据 → 标准化 → 计算协方差矩阵 → 特征值分解 → 选择主成分 → 数据投影

(2)矩阵计算详解



(3)PCA常见应用

  • 图像处理:人脸识别、图像压缩
  • 金融分析:风险因子分析、投资组合优化
  • 生物信息学:基因表达数据分析
  • 推荐系统:协同过滤、特征降维
  • 数据可视化:高维数据的二维/三维展示
  • 机器学习:特征提取、预处理

三、半监督学习基础认知

1. 与监督/非监督学习的核心区别

半监督学习是介于监督学习与非监督学习之间的学习范式,其核心数据特征为"少量标注数据+大量未标注数据"。监督学习依赖充足标注数据,非监督学习完全无标注数据,而半监督学习同时利用少量标注数据提供的先验知识和大量未标注数据的分布信息,解决标注数据稀缺、标注成本高昂场景下的学习问题。

2. 半监督学习的核心假设

半监督学习的有效性建立在两个关键假设之上,这也是其利用未标注数据的核心逻辑:

  • 聚类假设:相似的样本大概率属于同一类别,未标注数据的聚类结构可辅助标注数据确定类别边界,避免模型被少量标注数据误导;

  • 流形假设:高维数据实际分布在低维流形上,相邻的流形点对应语义或特征相似的样本,通过未标注数据构建流形结构,可让模型学习更平滑的特征映射。

3. 半监督学习的主要任务类型

半监督学习的任务场景与监督学习类似,核心任务可分为:

  • 半监督分类:利用少量标注样本和大量未标注样本训练分类模型,适用于图像识别、文本分类等标注成本高的场景;

  • 半监督回归:通过少量标注的连续值样本和大量未标注样本预测目标变量,如房价预测、销量预测等数据标注难度大的回归问题;

  • 半监督聚类:结合少量标注信息(如样本对的相似性约束、部分样本的类别标签)优化聚类结果,提升聚类准确性。

相关推荐
知识分享小能手11 小时前
CentOS Stream 9入门学习教程,从入门到精通,CentOS Stream 9 配置网络功能 —语法详解与实战案例(10)
网络·学习·centos
月亮月亮要去太阳11 小时前
基于机器学习的糖尿病预测
人工智能·机器学习
瑶光守护者12 小时前
【学习笔记】5G RedCap:智能回落5G NR驻留的接入策略
笔记·学习·5g
你想知道什么?12 小时前
Python基础篇(上) 学习笔记
笔记·python·学习
monster000w12 小时前
大模型微调过程
人工智能·深度学习·算法·计算机视觉·信息与通信
SHOJYS12 小时前
学习离线处理 [CSP-J 2022 山东] 部署
数据结构·c++·学习·算法
weixin_4093831212 小时前
简单四方向a*学习记录4 能初步实现从角色到目的地寻路
学习·a星
zhishidi12 小时前
推荐算法优缺点及通俗解读
算法·机器学习·推荐算法
xian_wwq12 小时前
【学习笔记】可信数据空间的工程实现
笔记·学习
Niuguangshuo12 小时前
交叉熵损失函数:深度学习分类任务的基石
人工智能·深度学习·分类