主成分分析python代码实现

版本一:使用numpy、panda

python 复制代码
import numpy as np
import pandas as pd

#PCA:principal component analysis 主成分分析法

#读取数据,以outcome.xlsx为例
data=pd.read_excel('outcome.xlsx',sheet_name='人均消费(元)')
data=data.set_index('省份')

#获取样本数量、指标数量
n,p=data.shape
print(f'样本数量:{n},指标数量:{p}')

#1、Z标准化{消除量纲影响}
data_Z=(data-data.mean(axis=0))/data.std(axis=0)

#2、计算协方差矩阵[相关系数矩阵]
data_cov=data_Z.cov()


#1、2 等价于计算相关系数矩阵
# data_corr=data.corr()

#3、计算相关系数矩阵的特征值与特征向量
eigValues,eigVectors=np.linalg.eig(data_cov)

# 获取特征值的排序索引
sorted_indices = np.argsort(eigValues)[::-1]

# 使用排序索引重新排列特征值和特征向量
sorted_eigValues = eigValues[sorted_indices]
sorted_eigVectors = eigVectors[:, sorted_indices]
#特征向量标准化
sorted_eigVectors = sorted_eigVectors / np.linalg.norm(sorted_eigVectors, axis=0)

#4、计算特征值贡献率与累计贡献率
sorted_eigValues_rate = sorted_eigValues/sorted_eigValues.sum()
sorted_eigVectors_cumrate=sorted_eigValues_rate.cumsum()

print(f'贡献率为   {sorted_eigValues_rate}')
print(f'累计贡献率为  {sorted_eigVectors_cumrate}')

#5、决定主成分数量
m=int(input('选择你需要的主成分数量:'))

#6、获取各主成分中各指标线性组合系数
Reduce_Matrix=sorted_eigVectors[:,0:m]
print(Reduce_Matrix)

版本二:使用sklearn库中的PCA模块

python 复制代码
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# 读取数据,以outcome.xlsx为例
data = pd.read_excel('outcome.xlsx', sheet_name='人均消费(元)')
data = data.set_index('省份')

# 获取样本数量、指标数量
n, p = data.shape
print(f'样本数量: {n}, 指标数量: {p}')

# 1、Z标准化{消除量纲影响}
scaler = StandardScaler()
data_Z = scaler.fit_transform(data)

# 2、使用PCA进行主成分分析
pca = PCA()
pca.fit(data_Z)

# 3、计算特征值贡献率与累计贡献率
explained_variance_ratio = pca.explained_variance_ratio_
cumulative_explained_variance_ratio = np.cumsum(explained_variance_ratio)

print(f'贡献率为   {explained_variance_ratio}')
print(f'累计贡献率为  {cumulative_explained_variance_ratio}')

# 4、决定主成分数量
m = int(input('选择你需要的主成分数量:'))

# 5、获取主成分中各指标线性组合的系数
components = pca.components_.T[:,:m]
# 将系数转换为DataFrame以便更好地查看
components_df = pd.DataFrame(components, index=data.columns, columns=[f'主成分{i+1}' for i in range(m)])
print(components_df)

# 6、计算降维后的矩阵并输出
pca = PCA(n_components=m)
Reduce_Matrix = pca.fit_transform(data_Z)
col = [f'主成分{i+1}' for i in range(m)]
New_outcome = pd.DataFrame(data=Reduce_Matrix, index=data.index, columns=col)
print(New_outcome)
相关推荐
风吹夏回8 分钟前
Python 全局异常处理:从“满屏 try-except”到优雅兜底
开发语言·python
Chengbei1118 分钟前
一站式源码安全检测工具、云安全 / APP / 小程序源码敏感信息递归多层目录扫描AK、JWT、手机号、身份证等敏感信息
java·开发语言·安全·web安全·网络安全·系统安全·安全架构
llz_11223 分钟前
web-第一次课后作业
java·开发语言·idea
小熊Coding34 分钟前
Python爬取当当网二手图书项目实战!
开发语言·爬虫·python·beautifulsoup·requests·二手图书
秋938 分钟前
Java项目运行5天左右自动宕机:系统性定位与解决方案
java·开发语言·python
小江的记录本43 分钟前
【JVM虚拟机】垃圾回收GC:垃圾收集器:CMS:核心原理、回收流程、优缺点、废弃原因(附《思维导图》+《面试高频考点清单》)
java·jvm·后端·python·spring·面试·maven
xiaoshuaishuai81 小时前
C# 内存管理与资源泄漏
开发语言·c#
lsx2024061 小时前
SVN 检出操作
开发语言
田里的水稻2 小时前
OE_ubuntu26.04与宿主机之间复制粘贴内容
人工智能·python·机器人
basketball6162 小时前
C++ NULL 和 nullptr 区别 以及 nullptr 的核心实现
java·开发语言·c++