机器学习(13-1)

主成分分析(PCA)

Principal Component Analysis

主要目标:降维,找到主元(主元就是一组比原始特征更有代表性、信息更集中的新特征)

降维

以二维为例,降维的目的就是找到一条轴,把所有的点投影到这个轴上,使得轴上的点投影后距离最大:

线性代数知识点

|-----------|---------------------------------------------------------------------------------------------------|
| 向量(数据、矩阵) | |
| 内积(乘法、投影) | |
| 均值 | |
| 方差 | |
| 协方差 | |

PCA针对协方差主要目标

对协方差矩阵进行特征值分解,使其在新的坐标系下变成对角矩阵。

零均值化

左图(零均值化前):所有点 整体偏在右上角、数据"中心"不在原点 (0,0)

右图(零均值化后):点云 围绕原点分布、原点 (0,0)成了数据的"中心"

不改变点云的形状,只把整堆点从第一张图的位置,平移到第二张图那样以原点为中心

PCA求解算法

特征值()和特征向量():

步骤:

  1. 原始数据矩阵化后,零均值化
  2. 求协方差矩阵
  3. 求协方差矩阵的特征值和特征向量
  4. 按特征值从大到小取特征向量前k行组成矩阵
  5. 即为降维后的数据

注意事项:

  • 验证集和测试集执行同样的降维
  • 验证集、测试集执行零均值化操作时,均值来自于训练集
  • 保证训练集、测试集独立同分布一致性

主要作用:

  • 有效缓解维度灾难
  • 数据降噪效果好
  • 降维后数据特征独立
  • 无法解决过拟合

PCA实战

PCA的优缺点和适用条件

|---------|----------------------------------------------------------------------------------|------------------------------------------------------------------|----------------------------------------|
| 方法 | 优点 | 缺点 | 适用条件 |
| PCA | 简单容易计算,易于计算机实现 可以有效减少特征选择工作量,降低算法计算开销 不要求数据正态分布,无参数限制,不受样本标签限制 有效去除噪声,使得数据更加容易使用 | 非高斯分布情况下,PCA得到的主元可能非最优 特征值分解的求解方法有一定的局限性 降维后存在信息丢失 主成分解释较原数据比较模糊 | 变量间强相关性 数据压缩、预处理 数据降维、噪声去除 高维数据集探索与可视化 |

相关推荐
callJJ5 小时前
Spring AI 文本聊天模型完全指南:ChatModel 与 ChatClient
java·大数据·人工智能·spring·spring ai·聊天模型
B站_计算机毕业设计之家5 小时前
猫眼电影数据可视化与智能分析平台 | Python Flask框架 Echarts 推荐算法 爬虫 大数据 毕业设计源码
python·机器学习·信息可视化·flask·毕业设计·echarts·推荐算法
是店小二呀5 小时前
CANN 异构计算的极限扩展:从算子融合到多卡通信的统一优化策略
人工智能·深度学习·transformer
冻感糕人~5 小时前
收藏备用|小白&程序员必看!AI Agent入门详解(附工业落地实操关联)
大数据·人工智能·架构·大模型·agent·ai大模型·大模型学习
予枫的编程笔记5 小时前
【Linux入门篇】Ubuntu和CentOS包管理不一样?apt与yum对比实操,看完再也不混淆
linux·人工智能·ubuntu·centos·linux包管理·linux新手教程·rpm离线安装
陈西子在网上冲浪5 小时前
当全国人民用 AI 点奶茶时,你的企业官网还在“人工建站”吗?
人工智能
victory04315 小时前
hello_agent第九章总结
人工智能·agent
骇城迷影5 小时前
Makemore 核心面试题大汇总
人工智能·pytorch·python·深度学习·线性回归
Leoobai5 小时前
当我花30分钟让AI占领了我的树莓派
人工智能
AI资源库5 小时前
Remotion 一个用 React 程序化制作视频的框架
人工智能·语言模型·音视频