机器学习(13-2)

PCA的算法实现

数据准备

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
w,b = 1.8,2.5
np.random.seed(0)
x1 = np.random.rand(100)*4
noise = np.random.randn(100)
x2 = w * x1 +b +noise
## 纵向合并
x = np.vstack([x1,x2]).T

零均值化

python 复制代码
np.mean(x,axis=0)
x -=np.mean(x,axis=0)

PCA实现

先把二维数据压缩成一维(只保留第 1 主成分),再用这一维信息把数据"投影还原"回二维,并和原始数据做对比

python 复制代码
from sklearn.decomposition import PCA
# n_compontents:想要的主成分的个数
pca = PCA(n_components=1)
pca.fit(x)
x_pca = pca.transform(x)
# 逆变换:把一维点重新拉回二维空间
x_pca_inv = pca.inverse_transform(x_pca)
plt.scatter(x[:,0],x[:,1],s=10)
plt.scatter(x_pca_inv[:,0],x_pca_inv[:,1],s=10,c='r')
plt.show()

降维

数据准备

python 复制代码
from sklearn.datasets import load_digits
digits = load_digits()
x = digits.data
y = digits.target
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state=233)

PCA降维

python 复制代码
from sklearn.decomposition import PCA

# 创建一个 PCA 模型,要求保留至少 90% 的数据方差信息
# 即:让模型自己决定降到多少维,但最后能保留 90% 的整体信息
pca = PCA(0.9)
pca.fit(x_train)

## 生成一份降维后的新数据
x_train_pca = pca.transform(x_train)
x_test_pca = pca.transform(x_test)

模型训练

python 复制代码
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(solver='saga',tol=0.001,max_iter=500,random_state=233)

%%time
clf.fit(x_train,y_train)
clf.score(x_test,y_test)

%%time
clf.fit(x_train_pca,y_train)
clf.score(x_test_pca,y_test)

PCA在降噪中的使用

查看数据集图片

python 复制代码
## 数据集同上,使用digits数据集
def plot_top20_digits(x):
    for i in range(20):
        # 绘制成一个4*5的图
        plt.subplot(4,5,i+1)
        plt.xticks([])
        plt.yticks([])
        plt.imshow(x[i].reshape(8,8),cmap=plt.cm.gray_r,interpolation='nearest')
    plt.show()

plot_top20_digits(x)

添加噪声

python 复制代码
# 添加噪声数据
np.random.seed(0)
# *3:扩大噪声的影响
x_noise = x + np.random.randn(x.shape[0],x.shape[1])*3

plot_top20_digits(x_noise)

PCA降噪

python 复制代码
pca = PCA(0.5)
pca.fit(x_noise)
x_noise_pca = pca.transform(x_noise)
x_noise_inv = pca.inverse_transform(x_noise_pca)

# 相比噪声数据去除掉了很多的噪点
plot_top20_digits(x_noise_inv)

PCA在人脸识别中的使用

数据准备

**fetch_lfw_people**是一个用于人脸识别与人脸表示学习的经典数据集,包含多位名人的灰度人脸图片,尺寸统一(常见是 62×47),data.target_names表示ID->人名的映射,包含5749人的照片

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_lfw_people
lfw = fetch_lfw_people()
x = lfw.data
y = lfw.target
# 样本数量,高度,宽度
n_samples,h,w = lfw.images.shape

查看数据集图片

python 复制代码
def plot_faces(data,h,w,n_row=3,n_col=4):
    plt.figure(figsize=(1.8*n_col,2.4*n_row))
    for i in range(n_row*n_col):
        plt.subplot(n_row,n_col,i+1)
        plt.xticks(())
        plt.yticks(())
        plt.imshow(data[i].reshape((h,w)),cmap = plt.cm.gray)

    plt.show()
plot_faces(x,h,w)

数据集处理

在使用 PCA 实现人脸识别之前,首先需要对人脸数据进行加载、筛选、划分以及标准化处理

筛选

  • min_faces_per_person=70 只保留至少包含 70 张人脸图片的人物,用于减少类别不平衡问题,提高识别任务的稳定性。
  • resize=0.4 将原始人脸图像按比例缩小,降低像素维度,从而减少计算量并加快 PCA 训练速度

标准化:

  • 将每个像素特征变换为:均值为 0 方差为 1
  • 保证不同像素维度在 PCA 中具有同等重要性
  • 只在训练集上 fit,再用同一变换作用于测试集,避免信息泄露
python 复制代码
# min_faces_per_person:筛选每人至少包含70张图片的数据
# resize=0.4:降低分辨率,减少维度,加快 PCA
lfw_people = fetch_lfw_people(min_faces_per_person=70,resize=0.4)
x = lfw_people.data
y = lfw_people.target
n_sanples,h,w = lfw_people.images.shape

from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,train_size=0.75,random_state=42)

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(x_train)
x_train = scaler.transform(x_train)
x_test = scaler.transform(x_test)

PCA实现

生成的是 PCA 学到的特征脸(Eigenfaces),它们不是具体的人脸,而是描述人脸数据集中主要变化模式的基向量,是人脸降维与识别的核心表示

python 复制代码
from sklearn.decomposition import PCA
pca = PCA(n_components=150,random_state=42)
pca.fit(x_train)

# 特征脸图
plot_faces(pca.components_,h,w)

x_train_pca = pca.transform(x_train)
x_test_pca = pca.transform(x_test)

模型训练

python 复制代码
from sklearn.svm import SVC
clf = SVC(C=10)
clf.fit(x_train_pca,y_train)
clf.score(x_test_pca,y_test)

clf = SVC(C=10)
clf.fit(x_train,y_train)
clf.score(x_test,y_test)
相关推荐
空白诗6 分钟前
CANN ops-nn 算子解读:AIGC 风格迁移中的 BatchNorm 与 InstanceNorm 实现
人工智能·ai
新芒7 分钟前
暖通行业两位数下滑,未来靠什么赢?
大数据·人工智能
B站_计算机毕业设计之家10 分钟前
豆瓣电影数据采集分析推荐系统 | Python Vue Flask框架 LSTM Echarts多技术融合开发 毕业设计源码 计算机
vue.js·python·机器学习·flask·echarts·lstm·推荐算法
weixin_4462608515 分钟前
掌握 Claude Code Hooks:让 AI 变得更聪明!
人工智能
小白|17 分钟前
CANN性能调优实战:从Profiling到极致优化的完整方案
人工智能
哈__17 分钟前
CANN加速图神经网络GNN推理:消息传递与聚合优化
人工智能·深度学习·神经网络
渣渣苏17 分钟前
Langchain实战快速入门
人工智能·python·langchain
七月稻草人18 分钟前
CANN 生态下 ops-nn:AIGC 模型的神经网络计算基石
人工智能·神经网络·aigc·cann
User_芊芊君子19 分钟前
CANN_MetaDef图定义框架全解析为AI模型构建灵活高效的计算图表示
人工智能·深度学习·神经网络
I'mChloe20 分钟前
CANN GE 深度技术剖析:图优化管线、Stream 调度与离线模型生成机制
人工智能