主成分分析笔记

主成分分析是指在尽量减少失真的前提下,将高维数据压缩成低微的方式。

减少失真是指最大化压缩后数据的方差。

记 P P P矩阵为 n × m n\times m n×m( n n n行 m m m列)的矩阵,表示一共有 m m m组数据,每组数据有 n n n个维度。

欲将此数据集降为 k k k维,即求 k × m k\times m k×m的矩阵 A A A。

思路是获得一种针对 n n n维的变换方法,将 n n n位列向量转为 k k k位列向量。然后对全部 m m m组数据分别应用此变换,这样就得到答案。

变换方法是使用形如 A = X P A=XP A=XP的算式。问题变为求 k × n k\times n k×n矩阵 X X X。

引入协方差的概念。

协方差 是刻画两个列向量 X = { x 1 , x 2 , ... , x n } T , Y = { y 1 , y 2 , ... , y n } T X=\{x_1,x_2,\dots,x_n\}^\text{T},Y=\{y_1,y_2,\dots,y_n\}^\text{T} X={x1,x2,...,xn}T,Y={y1,y2,...,yn}T的相异程度。对于同一行来说,两个列向量在此行的数值相差越大,就会使协方差越大。
C o v ( X , Y ) = ∑ i = 1 n ( x i − x ^ ) ( y i − y ^ ) Cov(X,Y)=\sum_{i=1}^{n}{(x_i-\hat{x})(y_i-\hat{y})} Cov(X,Y)=i=1∑n(xi−x^)(yi−y^)

接下来的部分需要线性代数理论进行推导,在此只给出结论。

对于数据集的 n n n个维度来说,方差越大,说明数据之间的差异越大,说明越能区分不同数据,说明此维度越重要,越应该被保留。可以用协方差刻画差异。

本例中将关于 n n n维的所有协方差写成一个 n n n阶方阵 Q Q Q,其中 Q i , j Q_{i,j} Qi,j表示 C o v ( P i , P j ) Cov(P_i,P_j) Cov(Pi,Pj), P i P_i Pi表示 P P P的第 i i i行,也就是所有数据的第 i i i个维度。

至此便直接给出计算方法。

  1. 计算 Q Q Q;
  2. 求 Q Q Q的 n n n个特征值及其对应的特征(行)向量,将它们按照特征值从大到小的顺序排列,组成新的方阵 R R R;
  3. 取 R R R的前 k k k行,即 k × n k\times n k×n的矩阵 X X X;
  4. A = X P A=XP A=XP。
相关推荐
_一条咸鱼_16 分钟前
LangChain 入门到精通
机器学习
s_little_monster18 分钟前
【Linux】进程信号的捕捉处理
linux·运维·服务器·经验分享·笔记·学习·学习方法
3DVisionary1 小时前
3D-DIC与机器学习协同模拟材料应力-应变本构行为研究
人工智能·机器学习·3d·3d-dic技术 机器学习·应力-应变本构行为·卷积神经网络(ecnn)·数字图像相关法(dic)
神经星星1 小时前
无需预对齐即可消除批次效应,东京大学团队开发深度学习框架STAIG,揭示肿瘤微环境中的详细基因信息
人工智能·深度学习·机器学习
神经星星1 小时前
【vLLM 学习】调试技巧
人工智能·机器学习·编程语言
呵呵哒( ̄▽ ̄)"1 小时前
线性代数:同解(1)
python·线性代数·机器学习
RedMery1 小时前
论文阅读笔记:Denoising Diffusion Implicit Models (4)
论文阅读·笔记
SweetCode1 小时前
裴蜀定理:整数解的奥秘
数据结构·python·线性代数·算法·机器学习
go_bai1 小时前
Linux环境基础开发工具——(2)vim
linux·开发语言·经验分享·笔记·vim·学习方法
吴梓穆1 小时前
UE5学习笔记 FPS游戏制作35 使用.csv配置文件
笔记·学习·ue5