机器学习第十七讲：PCA → 把100维数据压缩成3D视图仍保持主要特征

查看总目录：学习大纲

主成分分析（PCA）是一种数据降维魔法师，能够在保留关键信息的前提下，把复杂数据"折叠"成更简单形式。就像用3句话总结一本小说核心情节 $\^5-4$ 。下面通过超市顾客数据案例讲解：

假设要运输100件形状各异的货物（即100维特征），但只能用3个标箱打包：
杂乱货物找出承载量最大的箱子按重要性装箱

类比说明：就像用"年收入+消费频率+健康指数"3个维度，就能代表原始30个消费行为特征的核心信息

案例背景：超市有200个顾客的100维消费数据，包括：

原始100维数据标准化处理计算协方差矩阵找出方差最大的方向提取前3个主成分

特征标准化：消除量纲差异，让"购买次数"和"消费金额"可比（如同统一用公分和公斤替代市尺和市斤） $\^4-1$
寻找主方向：
- 第一主成分：解释最大方差的方向（如综合消费能力轴）
- 第二主成分：解释剩余方差且与第一正交（如消费偏好方向）
- 第三主成分：继续捕捉剩余重要信息（如促销敏感度） $\^5-4$
数据投影 ：

原始100维数据投影到3个主轴上，得到：
python 复制代码
```
# 转换后的数据示例
顾客A: [2.5, -0.8, 1.2]
顾客B: [-1.3, 0.7, 0.3]
```
数字代表在三个主方向上的强度值

压缩后的3D散点图能清晰展示客户分群：
X轴综合消费能力 Y轴品质偏好度 Z轴价格敏感度

生活场景：就像用身高/体重/体脂率3个指标代替50项体检数据，医生仍能判断健康状况 $\^5-4$

优势场景：

使用注意：

$\^4-1$ 《零基础学机器学习》第四章第二节特征标准化

$\^5-4$ 《零基础学机器学习》第五章第六节降维技术