模式识别与机器学习 | 第九章降维

降维/嵌入 ---非监督学习

原始的高维映射到地维空间

降维方法：维度选择、维度抽选

维度选择：选择已有维度的一个子集 (D维 ->K维)

JL定理：D维近似等距的嵌入 K维

优点：简单、流行，有比较好的泛化性能

缺点：没有精度保证

手工移除特征：冗余的、不相关的、质量差的

监督方法：过滤式选择、包裹式选择、嵌入式选择

过滤式选择

设计一个**相关统计量（单个特征与标签之间的相关系数。互信息）**来度量特征的重要性

优点：根据单个特征和目标之间的统计分值选择特征值，速度快

缺点：没考虑特征间的关系

包裹式选择

用最终的学习器性能评价特征的重要性

前向：从0开始一遍式/迭代式地选择；后向：所有特征训练一个模型，得到特征重要性；每次删除最不重要的特征

删除/增加特征，需要进行模型性能监控

嵌入式选择

嵌入式维度选择与模型训练一起完成

基于树模型的特征选择

基于L1正则的特征选择

维度抽选：组合已有的维度构建新的维度

特征分解

输入矩阵A[M×N]; Av=λv ,v特征向量，λ特征值

特征分解（对角化）：A=是由特征值组成的对角矩阵

奇异值分解：奇异值，奇异值对应的奇异向量

正交矩阵，其每个行，列代表一个方向

线性模型

多维缩放（MDS）：

给定空间中任意两个点的距离 ，点的具体位置、维度未知；将这些点嵌入到低维空间，使得新空间中点对的距离和原来尽可能接近

输入：距离矩阵D，低维度D'

算法过程：计算D；借助中心化矩阵，计算 ;对B做特征值分解

输出：

PCA

过程：1.先处理数据，数据标准化，使得均值为0

2.求相关矩阵R=XX^T

3.求R的特征值、特征向量 Rw=λw

4.降为k维，就选最大的k个特征值的特征向量,构成主成分矩阵P

5.x对应到k维 X'=XP

优点：特征向量方向、没有格外参数、没有迭代、没有局部最小值

缺点：只用了二阶统计量，不能处理高阶；受限于线性投影

非线性降维：核PCA、流形学习

核PCA

流形学习

高维空间中，欧式距离不能准确反映数据内在的相似度

全局距离保持，等距离映射ISOMAP:构建邻接图；计算最短距离（测地距离）；构建低维嵌入

局部距离保持，LLE拉普拉斯特征映射

局部优先，tNSE：高维空间相似的点映射到低维也相似。高维降到2/3维，嵌入空间的相似度由t分布表示，SNE：欧氏距离转换为用概率来表示的相似度。主要用于可视化

优化准则

最小化信息损失

最大化区分度

模式识别与机器学习 | 第九章 降维

降维方法：维度选择、维度抽选

维度选择：选择已有维度的一个子集 (D维 ->K维)

JL定理：D维 近似等距的嵌入 K维

维度抽选：组合已有的维度构建新的维度