【机器学习】—PCA(主成分分析)

主成分分析(PCA)详解

引言

主成分分析(PCA)是一种统计方法,它可以通过正交变换将一组可能相关的变量转换为一组线性不相关的变量,这些变量称为主成分。PCA经常用于降维,数据压缩,以及在数据挖掘中发现数据结构。

PCA的数学原理

协方差矩阵

假设我们有一个数据集 ( X ),其中包含 ( n ) 个样本,每个样本有 ( p ) 个特征。我们可以将 ( X ) 表示为一个 ( n \times p ) 的矩阵。PCA的第一步是计算协方差矩阵 ( \Sigma ),它是数据集 ( X ) 的特征值和特征向量的载体。

协方差矩阵 ( \Sigma ) 定义为:

[ \Sigma = \frac{1}{n-1} X^T X ]

特征值分解

接下来,我们需要对协方差矩阵 ( \Sigma ) 进行特征值分解。特征值分解的目的是找到矩阵的特征值 ( \lambda ) 和对应的特征向量 ( v ),使得:

[ \Sigma v = \lambda v ]

主成分

特征向量 ( v ) 表示新的特征空间的方向,而特征值 ( \lambda ) 表示每个特征向量的重要性。我们通常按照特征值从大到小的顺序选择前 ( k ) 个特征向量,这些特征向量对应的主成分能够解释数据中最大的方差。

转换数据

最后,我们将原始数据 ( X ) 通过这些特征向量转换到新的特征空间,得到降维后的数据:

[ X_{reduced} = X V_k ]

其中 ( V_k ) 是包含前 ( k ) 个特征向量的矩阵。

Python代码实现

以下是使用Python中的sklearn库来实现PCA的一个简单例子。

python 复制代码
import numpy as np
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# 假设X是包含数据的numpy数组
X = np.array([[1, 2], [3, 4], [5, 6]])

# 标准化数据
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 创建PCA对象,设置主成分的数量
pca = PCA(n_components=2)

# 对数据进行拟合和转换
X_pca = pca.fit_transform(X_scaled)

print("原始数据:\n", X)
print("降维后的数据:\n", X_pca)
相关推荐
刘什么洋啊Zz3 小时前
MacOS下使用Ollama本地构建DeepSeek并使用本地Dify构建AI应用
人工智能·macos·ai·ollama·deepseek
奔跑草-4 小时前
【拥抱AI】GPT Researcher 源码试跑成功的心得与总结
人工智能·gpt·ai搜索·deep research·深度检索
禁默4 小时前
【第四届网络安全、人工智能与数字经济国际学术会议(CSAIDE 2025】网络安全,人工智能,数字经济的研究
人工智能·安全·web安全·数字经济·学术论文
boooo_hhh6 小时前
深度学习笔记16-VGG-16算法-Pytorch实现人脸识别
pytorch·深度学习·机器学习
AnnyYoung6 小时前
华为云deepseek大模型平台:deepseek满血版
人工智能·ai·华为云
INDEMIND7 小时前
INDEMIND:AI视觉赋能服务机器人,“零”碰撞避障技术实现全天候安全
人工智能·视觉导航·服务机器人·商用机器人
慕容木木7 小时前
【全网最全教程】使用最强DeepSeekR1+联网的火山引擎,没有生成长度限制,DeepSeek本体的替代品,可本地部署+知识库,注册即可有750w的token使用
人工智能·火山引擎·deepseek·deepseek r1
南 阳7 小时前
百度搜索全面接入DeepSeek-R1满血版:AI与搜索的全新融合
人工智能·chatgpt
企鹅侠客7 小时前
开源免费文档翻译工具 可支持pdf、word、excel、ppt
人工智能·pdf·word·excel·自动翻译
冰淇淋百宝箱8 小时前
AI 安全时代:SDL与大模型结合的“王炸组合”——技术落地与实战指南
人工智能·安全