【机器学习】 16. 降维：PCA-主成分分析 Principle Component Analysis

pen-ai2024-11-04 22:41

1. 高维会有什么问题？

慢的训练
不可靠的分类
过度拟合
构建可解释的模型是不可能的
可视化的问题
并不是所有的变量都很重要。

2. PCA

PCA是最流行的降维方法
通常称为特征投影法。
其主要思想是找到一组新的维度，并将数据投射到其中。
-更小的维度，捕捉数据的本质

主要思路：给定N个具有维度（m个特征）的例子

求：m个相互正交的新轴，使var(Z1) > var（Z2）...> var（Zm）

主分量是定义新坐标系的向量。

它们是根据它们捕获的方差来排序的

每个主成分都是原始特征的线性组合. 第一个主成分是使得数据方差最大的方向, 第二个主成分是与第一个主成分正交的条件下, 方差最大的方向, 依此类推...

确定降维数量

最小方差百分比
肘部法, Elbow Method. 绘制主成分的数量和累积方差图, 通常会在曲线上出现一个"肘点"

确定主成分

通过奇异值分解, Singular Value Decomposition, SVD确定PC. 它是一种标准的矩阵分解方法, 能够进行坐标系的变换

n x m的矩阵X可以分解成3个矩阵乘积：
X = U ∗ Λ ∗ V T X = U * Λ*V^T X=U∗Λ∗VT

U 是n x m的正交矩阵

（数据在新坐标系中的新坐标）（左奇异向量空间）

V^T是m x m正交矩阵V的转置

（右奇异向量空间）

Λ是一个m x m的对角矩阵包括奇异值

（在新坐标系中的尺度变化）

上一篇：基于vue3和elementPlus的el-tree组件，实现树结构穿梭框，支持数据回显和懒加载

下一篇：Linux基础（七）：Linux文件与目录管理

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw + 飞书（Feishu）环境搭建指南 04Window 10部署openclaw报错node.exe : npm error code 128 05本地部署 OpenClaw + DeepSeek-R1 完全指南 06OpenClaw优化飞书API 额度已耗尽问题 07Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 08OpenClaw 连接飞书完整指南：插件安装、配置与踩坑记录 09小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）10OpenClaw 飞书机器人不回复消息？3 小时踩坑总结