【机器学习】—PCA(主成分分析)

主成分分析(PCA)详解

引言

主成分分析(PCA)是一种统计方法,它可以通过正交变换将一组可能相关的变量转换为一组线性不相关的变量,这些变量称为主成分。PCA经常用于降维,数据压缩,以及在数据挖掘中发现数据结构。

PCA的数学原理

协方差矩阵

假设我们有一个数据集 ( X ),其中包含 ( n ) 个样本,每个样本有 ( p ) 个特征。我们可以将 ( X ) 表示为一个 ( n \times p ) 的矩阵。PCA的第一步是计算协方差矩阵 ( \Sigma ),它是数据集 ( X ) 的特征值和特征向量的载体。

协方差矩阵 ( \Sigma ) 定义为:

\\Sigma = \\frac{1}{n-1} X\^T X

特征值分解

接下来,我们需要对协方差矩阵 ( \Sigma ) 进行特征值分解。特征值分解的目的是找到矩阵的特征值 ( \lambda ) 和对应的特征向量 ( v ),使得:

\\Sigma v = \\lambda v

主成分

特征向量 ( v ) 表示新的特征空间的方向,而特征值 ( \lambda ) 表示每个特征向量的重要性。我们通常按照特征值从大到小的顺序选择前 ( k ) 个特征向量,这些特征向量对应的主成分能够解释数据中最大的方差。

转换数据

最后,我们将原始数据 ( X ) 通过这些特征向量转换到新的特征空间,得到降维后的数据:

X_{reduced} = X V_k

其中 ( V_k ) 是包含前 ( k ) 个特征向量的矩阵。

Python代码实现

以下是使用Python中的sklearn库来实现PCA的一个简单例子。

python 复制代码
import numpy as np
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# 假设X是包含数据的numpy数组
X = np.array([[1, 2], [3, 4], [5, 6]])

# 标准化数据
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 创建PCA对象,设置主成分的数量
pca = PCA(n_components=2)

# 对数据进行拟合和转换
X_pca = pca.fit_transform(X_scaled)

print("原始数据:\n", X)
print("降维后的数据:\n", X_pca)
相关推荐
牛客企业服务23 分钟前
2025年AI面试推荐榜单,数字化招聘转型优选
人工智能·python·算法·面试·职场和发展·金融·求职招聘
视觉语言导航1 小时前
RAL-2025 | 清华大学数字孪生驱动的机器人视觉导航!VR-Robo:面向视觉机器人导航与运动的现实-模拟-现实框架
人工智能·深度学习·机器人·具身智能
**梯度已爆炸**1 小时前
自然语言处理入门
人工智能·自然语言处理
ctrlworks1 小时前
楼宇自控核心功能:实时监控设备运行,快速诊断故障,赋能设备寿命延长
人工智能·ba系统厂商·楼宇自控系统厂家·ibms系统厂家·建筑管理系统厂家·能耗监测系统厂家
BFT白芙堂2 小时前
睿尔曼系列机器人——以创新驱动未来,重塑智能协作新生态(上)
人工智能·机器学习·机器人·协作机器人·复合机器人·睿尔曼机器人
aneasystone本尊2 小时前
使用 MCP 让 Claude Code 集成外部工具
人工智能
静心问道2 小时前
SEW:无监督预训练在语音识别中的性能-效率权衡
人工智能·语音识别
羊小猪~~2 小时前
【NLP入门系列五】中文文本分类案例
人工智能·深度学习·考研·机器学习·自然语言处理·分类·数据挖掘
xwz小王子2 小时前
从LLM到WM:大语言模型如何进化成具身世界模型?
人工智能·语言模型·自然语言处理
我爱一条柴ya2 小时前
【AI大模型】深入理解 Transformer 架构:自然语言处理的革命引擎
人工智能·ai·ai作画·ai编程·ai写作