【机器学习】07_降维与度量学习

1. k近邻学习 (kNN)

kNN 是一种常用的监督学习 方法,其工作机制非常直观:对于给定的测试样本,在训练集中找到距离最近的 kkk 个样本,根据这 kkk 个"邻居"的信息进行预测 1。

  • 分类与回归 :分类问题通常采用投票法 (少数服从多数);回归问题则采用平均法
  • 学习方式 :kNN 属于懒惰学习 (Lazy Learning),即训练阶段仅保存样本,不进行显式训练,待收到测试请求才处理 。相比之下,训练阶段就处理样本的方法称为"急切学习"

💡 晦涩点解析:1NN 的泛化错误率

课件中推导了最近邻分类器(k=1k=1k=1)的性能

公式 :P(err)≤2×(1−P(c∗∣x))P(err) \le 2 \times (1 - P(c^*|x))P(err)≤2×(1−P(c∗∣x))
解释 :这意味着最近邻分类器的泛化错误率不超过贝叶斯最优分类器错误率的两倍 7。贝叶斯最优分类器是理论上的性能上限,这个结论从数学上证明了即便只看一个邻居,kNN 的效果也是有底线保证的。

2. 维数灾难与降维

维数灾难 (Curse of Dimensionality)

在高维空间下,数据样本会变得极其稀疏 8。

  • 采样挑战:为了维持样本密度(密采样),所需的样本量随维数呈指数级增长 。例如,20维空间若要满足密采样,所需样本数可能超过宇宙粒子总数 。
  • 计算困难:高维下距离计算变得困难,甚至连内积计算都不再容易

降维的动机

通过数学变换,将高维属性空间转变为低维子空间 (Subspace)

  • 可行性:虽然原始维度高,但与任务相关的往往只是某种低维分布(低维嵌入)。
  • 多维缩放 (MDS) :降维的核心目标之一是保持距离。MDS 要求样本在低维空间中的欧氏距离等于原始空间中的距离。

3. 主成分分析 (PCA)

PCA 是最常用的线性降维方法。它试图寻找一个超平面对样本进行表达

  • 核心准则
    1. 最近重构性:样本点到超平面的距离足够近
    2. 最大可分性:样本点在超平面上的投影能尽可能分开(即方差最大化)
  • 算法流程
    1. 样本中心化(减去均值)
    2. 计算协方差矩阵 XXTXX^TXXT
    3. 特征值分解,取最大的 d′d'd′ 个特征值对应的特征向量构成投影矩阵

4. 核化线性降维与流形学习

核化主成分分析 (KPCA)

当数据在原始空间中不是线性可分或映射关系非线性时,PCA 效果较差 21。KPCA 引入核技巧 (Kernel Trick),通过非线性映射将数据映射到高维特征空间,再在该空间执行 PCA

流形学习 (Manifold Learning)

流形学习假设高维数据实际上分布在一个低维流形上。流形在局部具有欧氏空间的性质(可计算距离)

  • 等度量映射 (Isomap) :核心是测地线 (Geodesic) 距离 。它认为高维空间中的直线距离(欧式距离)在流形上不可达,应通过近邻图计算两点间的最短路径来近似测地线距离
  • 局部线性嵌入 (LLE) :试图保持邻域内的线性重构关系 。即如果一个点在原空间可以由邻居线性表示,那么降维后这种表示系数应保持不变

5. 度量学习 (Metric Learning)

度量学习的本质是:与其通过降维寻找合适空间,不如直接学习一个合适的距离度量

💡 晦涩点解析:马氏距离 (Mahalanobis Distance)

公式 :distmah2(xi,xj)=(xi−xj)TM(xi−xj)dist_{mah}^2(x_i, x_j) = (x_i - x_j)^T M (x_i - x_j)distmah2(xi,xj)=(xi−xj)TM(xi−xj) 29
解释

  • 普通的欧氏距离假设各属性权重相同且相互独立。
    • 度量矩阵 MMM:度量学习的目标就是学习这个 MMM
    • 如果 M=IM=IM=I(单位矩阵),它就是欧氏距离;如果 MMM 是对角阵,就是加权欧氏距离;如果 MMM 是普通的半正定对称矩阵,它可以处理属性间的相关性(如西瓜的重量和体积正相关)

监督学习中的度量

  • 近邻成分分析 (NCA) :通过优化概率投票法下的留一法(LOO)正确率来求取 MMM
  • 约束学习
    • 必连 (Must-link):相似样本距离应尽可能小
    • 勿连 (Cannot-link):不相似样本距离应大于某个阈值
      通过求解凸优化问题来获得度量矩阵 MMM
相关推荐
千匠网络1 天前
破局出海壁垒,千匠网络新能源汽车跨境出海解决方案
人工智能
三品吉他手会点灯1 天前
C语言学习笔记 - 20.C编程预备计算机专业知识 - 变量为什么必须的初始化【重点】
c语言·笔记·学习
马丁聊GEO1 天前
解码AI用户心智,筑牢可信GEO根基——悠易科技深度参与《中国AI用户态度与行为研究报告(2026)》发布会
人工智能·科技
nap-joker1 天前
Fusion - Mamba用于跨模态目标检测
人工智能·目标检测·计算机视觉·fusion-mamba·可见光-红外成像融合·远距离/伪目标问题
sakiko_1 天前
UIKit学习笔记1-创建项目(使用UIKit)、使用组件
笔记·学习
一只幸运猫.1 天前
2026Java 后端面试完整版|八股简答 + AI 大模型集成技术(最新趋势)
人工智能·面试·职场和发展
Promise微笑1 天前
2026年国产替代油介损测试仪:油介损全场景解决方案与技术演进
大数据·网络·人工智能
深海鱼在掘金1 天前
深入浅出 LangChain —— 第三章:模型抽象层
人工智能·langchain·agent
生信碱移1 天前
PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!
人工智能·学习·算法·机器学习·数据挖掘·数据分析·r语言
workflower1 天前
具身智能行业应用-生活服务业
大数据·人工智能·机器人·动态规划·生活