机器学习---流形学习

三月七（爱看动漫的程序员）2024-01-13 23:38

1. 流形学习

作为机器学习研究的热点问题之一，流形学习是要从高维数据集中发现内在的低维流形，并基于低

维流形来实现随后的各种机器学习任务，如模式识别，聚类分析。与欧氏空间不同，流形学习主要

处理的是非欧空间里的模式识别和维数约简等问题。从宇宙空间看地球，如果不借助外界力量的

话，我们只能局限于地球的表面活动，而且地球上两点的距离并不单纯是它们对应的直线的跟离，

而是测地线距离。可以证明，我们生活的地球是一个嵌入在3维欧式空间中的维流形，也就是说，

地球表面点的位置可由两个变量来控制。

从定义我们可以看出，流形就是局部欧式的拓扑空间，欧式空间的性质只在邻域内有效。值得指出

的是，当邻域定义为整个欧氏空间时，欧氏空间本身也可以视为流形。所以，流形学习并非是一种

特殊学习方法，而是基于欧氏度量学习的一种推广，具有更强的一般性。

定义：设M是一个Hausdorff拓扑空间，若对∀p∈M，都有p的邻域U和Rm的一个开集同胚，则称M

为m维拓扑流形。

我们假设这些观测数据是由一些隐变量Y通过一个映射f：Y->X生成的，其中，

于是流形学习的任务就是通过观测数据把未知映射f和隐变量Y重建出来。由于m<n，故该问题是一

个病态问题，不存在唯一解，因此研究人员提出了各种各样的流形学习算法，它们试图通过添加某

些特定约束用以恢复流形的内在结构。

总体来说，流形学习兴起来源于2000年在《科学》杂志上的两篇关于流形学习的文章，其中一篇

提出了一个叫ISOMAP的方法，该方法把传统的MDS算法扩展到非线性流形上，通过对中心化的测

地线距离矩阵进行特征值分解来保持流形上的整体拓扑结构。而另一篇文章提出厂局部线性嵌入

(Local Linear Embedding (LLE))算法，该算法假设高维数据和低维数据的局部拓扑结构关系保持

不变，即邻域关系不变，然后刊用这种关系从高维数据重构出低维的流形嵌入。

1.1 PCA

该方法认为特征的方差越大提供的信息量越多，特征的方差越小提供的信息量越少。PCA 通过原

分量的线性组合构造方差大、含信息量多的若干主分量，从而降低数据的维数。

1.2 MDS

其中（a）为真实数据集的流形结构图，（b）为从（a）随机采样 2000 个点后的数据分布图，

（c）、（d）和（e）为经三次不同采样后，采样点经 MDS 算法降到二维空间后分布图。可以看

出，（c）图在一定程度上保持了数据的连续性，但并没有发现嵌入在数据的本质，改变了采样点

的拓扑结构；（d）和（e）图的效果更差，不同样本点均发生了不同程度的重叠，严重改变了采样

点的结构。

1.3 ISOMAP

Laplacian Eigenmap(LE)就是其中的一种，该算法首先构造一个邻域关系图，然后对该图的拉普拉

斯矩阵进行特征值分解来得到流形的低维表示，这样的分解保持了数据的局部关系，注意到在LE

中，我们要估计流形上的Laplacian算子。Hessian Eigenmap(HLLE) 该算法通过估计流形上的

Heosian算子，然后对该算子进行特征值分解来保持流形的局部拓扑性。SDE算法：为了得到一个

等距嵌入，用半正定规划的方法估计流形上的点对间的角度和距离，从而学习图像数据中的流形。

2. 流行学习框架

2.1 线性降维的不足

原始数据无法表示为特征的简单线性组合，比如：PCA无法表达Helix曲线流形。

真实数据中的有用信息不能由线性特征表示，比如：如何获取并表示多姿态人脸的姿态信息

比如：如何获取运动视频序列中某个动作的对应帧

2.2 流形学习框架

流形是线性子空间的一种非线性推广，拓扑学角度：局部区域线性，与低维欧式空间拓扑同胚，微

分几何角度：有重叠chart的光滑过渡，黎曼流形就是以光滑的方式在每一点的切空间上指定了欧

氏内积的微分流形。

流形学习是一种非线性的维数约简方法，高维观察数据的变化模式本质是由少数几个隐含变量所决

定的，如：人脸采样由光线亮度、人与相机的距离、人的头部姿势、人的面部表情等因素决定。从

认知心理学的角度，心理学家认为人的认知过程是基于认知流形和拓扑连续性的。

设是一个低维流形，是一个光滑嵌入，其中 D>d 。数据集是随机生成的，

且经过 f映射为观察空间的数据。流形学习就是在给定观察样本集的条件下重

构 f 和。

经典流形学习方法一览：

3. 方法

3.1 等距映射(ISOMAP)

保持全局测地距离，测地距离反映数据在流形上的真实距离差异。

等距映射，基于线性算法MDS，采用"测地距离"作为数据差异度量。

MDS的示意图： MDS失效：

ISOMAP算法流程：

①计算每个点的近邻点 (用K近邻或ξ邻域)

②在样本集上定义一个赋权无向图，如果和互为近邻点，则边的权值为

③计算图中两点间的最短距离，记所得的距离矩阵为

④用MDS求低维嵌入坐标，令，低维嵌入是

的第1大到第 d大的特征值所对应的特征向量。

图距离逼近测地距离：

假设采样点是随机均匀抽取的，则渐进收敛定理给定，则只要样本集充分大且适当选

择K , 不等式，至少以概率成立。

前提假设：数据所在的低维流形与欧式空间的一个子集整体等距，该欧式空间的子集是一个凸集。

思想核心：较近点对之间的测地距离用欧式距离代替，较远点对之间的测地距离用最短路径来逼近

算法特点：适用于学习内部平坦的低维流形，不适于学习有较大内在曲率的流形，计算点对间的最

短路径比较耗时。

继承了MDS和PCA的特点：保证渐近收敛于真结构，多项式运行时，发现任意维度流形的能力，

当数据来自单个采样良好的集群时，性能会很好。少数自由参数：为其度量保持特性提供了良好的

理论基础。

嵌入是有偏差的，以保持远点的分离，这可能导致局部几何的扭曲，不能很好地投影分布在多个集

群中的数据，条件良好的算法，但对于大数据集计算成本高，保角等高图------能够学习某些弯曲流

形的结构，Landmark Isomap------通过一个小得多的计算集来近似大的全局计算，使用k/2个最近

的物体和k/2个最远的物体重建距离。

3.2 局部线性嵌入(LLE)

前提假设：采样数据所在的低维流形在局部是线性的，每个采样点均可以利用其近邻样本进行线性

重构表示。学习目标：低维空间中保持每个邻域中的重构权值不变，在嵌入映射为局部线性的条件

下，最小化重构误差，最终形式化为特征值分解问题。

LLE算法流程：

①计算每一个点的近邻点, 一般采用K近邻或者ξ邻域

②计算权值，使得把用它的K 个近邻点线性表示的误差最小，即通过最小化来求

出。

③保持权值不变, 求在低维空间的象，使得低维重构误差最小。

LLE算法的求解：

①计算每一个点的近邻点

②对于点和它的近邻点的权值，

③令，低维嵌入是 M的最小的第 2到第 d＋1 个特征向量。

LLE (Locally linear embedding)：优点：算法可以学习任意维的局部线性的低维流形，算法归结为

稀疏矩阵特征值计算，计算复杂度相对较小。

缺点：算法所学习的流形只能是不闭合的，算法要求样本在流形上是稠密采样的，算法对样本中的

噪声和邻域参数比较敏感。用于计算W的协方差矩阵可能是病态的，需要用到正则化。较小的特征

值受到数值精度误差和混合的影响，但是，该算法中使用的稀疏矩阵使其比Isomap更快。

3.3 拉普拉斯特征映射(Laplacian Eigenmap)

设 G 是一个图，v 是它的顶点，是 v 的自由度，w(u,v)是连接顶点u、v的边的权值，令

，其中 T 是对角矩阵，对角线的元素为

，则称 L 为图 G 上的拉普拉斯算子。

Laplacian Eigenmap 算法流程：

①从样本点构建一个近邻图，图的顶点为样本点，离得很近两点用边相连 (K近邻或ξ邻域)

②给每条边赋予权值，如果第i个点和第j个点不相连，权值为0，否则

③计算图拉普拉斯算子的广义特征向量，求得低维嵌入。令D为对角矩阵

L是近邻图上的拉普拉斯算子，求解广义特征值问题

LE (Laplacian Eigenmap)优点：算法是局部非线性方法，与图理论有很紧密的联系。算法通过

求解稀疏矩阵的特征值问题解析地求出整体最优解，效率非常高。算法使原空间中离得很近的点在

低维空间也离得很近，可以用于聚类。

缺点：同样对算法参数和数据采样密度较敏感，不能有效保持流形的全局几何结构。

上一篇：机器学习指南：如何学习机器学习？

下一篇：蓝凌EIS智慧协同平台 doc_fileedit_word.aspx 存在 SQL注入漏洞

热门推荐

01Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 02全球最强模型Grok4，国内已可免费使用！（附教程）03Coze 开源了，送上保姆级私有化部署方案【建议收藏】04扣子开源本地部署教程丨Coze智能体小白喂饭级指南 05KGG转MP3工具|非KGM文件|解密音频 06腾讯还是太全面了，限时免费！超全CodeBuddy IDE保姆级教程！（附案例）07干翻 Typora！MilkUp：完全免费的桌面端 Markdown 编辑器！0801-开源版COZE-字节 Coze Studio 重磅开源！保姆级本地安装教程，手把手带你体验 09ChatGPT Agent 完全使用指南：2025年7月最新功能详解 10Claude Code 最新版已经支持 Windows 安装使用！