机器学习(13-2)

PCA的算法实现

数据准备

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
w,b = 1.8,2.5
np.random.seed(0)
x1 = np.random.rand(100)*4
noise = np.random.randn(100)
x2 = w * x1 +b +noise
## 纵向合并
x = np.vstack([x1,x2]).T

零均值化

python 复制代码
np.mean(x,axis=0)
x -=np.mean(x,axis=0)

PCA实现

先把二维数据压缩成一维(只保留第 1 主成分),再用这一维信息把数据"投影还原"回二维,并和原始数据做对比

python 复制代码
from sklearn.decomposition import PCA
# n_compontents:想要的主成分的个数
pca = PCA(n_components=1)
pca.fit(x)
x_pca = pca.transform(x)
# 逆变换:把一维点重新拉回二维空间
x_pca_inv = pca.inverse_transform(x_pca)
plt.scatter(x[:,0],x[:,1],s=10)
plt.scatter(x_pca_inv[:,0],x_pca_inv[:,1],s=10,c='r')
plt.show()

降维

数据准备

python 复制代码
from sklearn.datasets import load_digits
digits = load_digits()
x = digits.data
y = digits.target
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state=233)

PCA降维

python 复制代码
from sklearn.decomposition import PCA

# 创建一个 PCA 模型,要求保留至少 90% 的数据方差信息
# 即:让模型自己决定降到多少维,但最后能保留 90% 的整体信息
pca = PCA(0.9)
pca.fit(x_train)

## 生成一份降维后的新数据
x_train_pca = pca.transform(x_train)
x_test_pca = pca.transform(x_test)

模型训练

python 复制代码
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(solver='saga',tol=0.001,max_iter=500,random_state=233)

%%time
clf.fit(x_train,y_train)
clf.score(x_test,y_test)

%%time
clf.fit(x_train_pca,y_train)
clf.score(x_test_pca,y_test)

PCA在降噪中的使用

查看数据集图片

python 复制代码
## 数据集同上,使用digits数据集
def plot_top20_digits(x):
    for i in range(20):
        # 绘制成一个4*5的图
        plt.subplot(4,5,i+1)
        plt.xticks([])
        plt.yticks([])
        plt.imshow(x[i].reshape(8,8),cmap=plt.cm.gray_r,interpolation='nearest')
    plt.show()

plot_top20_digits(x)

添加噪声

python 复制代码
# 添加噪声数据
np.random.seed(0)
# *3:扩大噪声的影响
x_noise = x + np.random.randn(x.shape[0],x.shape[1])*3

plot_top20_digits(x_noise)

PCA降噪

python 复制代码
pca = PCA(0.5)
pca.fit(x_noise)
x_noise_pca = pca.transform(x_noise)
x_noise_inv = pca.inverse_transform(x_noise_pca)

# 相比噪声数据去除掉了很多的噪点
plot_top20_digits(x_noise_inv)

PCA在人脸识别中的使用

数据准备

**fetch_lfw_people**是一个用于人脸识别与人脸表示学习的经典数据集,包含多位名人的灰度人脸图片,尺寸统一(常见是 62×47),data.target_names表示ID->人名的映射,包含5749人的照片

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_lfw_people
lfw = fetch_lfw_people()
x = lfw.data
y = lfw.target
# 样本数量,高度,宽度
n_samples,h,w = lfw.images.shape

查看数据集图片

python 复制代码
def plot_faces(data,h,w,n_row=3,n_col=4):
    plt.figure(figsize=(1.8*n_col,2.4*n_row))
    for i in range(n_row*n_col):
        plt.subplot(n_row,n_col,i+1)
        plt.xticks(())
        plt.yticks(())
        plt.imshow(data[i].reshape((h,w)),cmap = plt.cm.gray)

    plt.show()
plot_faces(x,h,w)

数据集处理

在使用 PCA 实现人脸识别之前,首先需要对人脸数据进行加载、筛选、划分以及标准化处理

筛选

  • min_faces_per_person=70 只保留至少包含 70 张人脸图片的人物,用于减少类别不平衡问题,提高识别任务的稳定性。
  • resize=0.4 将原始人脸图像按比例缩小,降低像素维度,从而减少计算量并加快 PCA 训练速度

标准化:

  • 将每个像素特征变换为:均值为 0 方差为 1
  • 保证不同像素维度在 PCA 中具有同等重要性
  • 只在训练集上 fit,再用同一变换作用于测试集,避免信息泄露
python 复制代码
# min_faces_per_person:筛选每人至少包含70张图片的数据
# resize=0.4:降低分辨率,减少维度,加快 PCA
lfw_people = fetch_lfw_people(min_faces_per_person=70,resize=0.4)
x = lfw_people.data
y = lfw_people.target
n_sanples,h,w = lfw_people.images.shape

from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,train_size=0.75,random_state=42)

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(x_train)
x_train = scaler.transform(x_train)
x_test = scaler.transform(x_test)

PCA实现

生成的是 PCA 学到的特征脸(Eigenfaces),它们不是具体的人脸,而是描述人脸数据集中主要变化模式的基向量,是人脸降维与识别的核心表示

python 复制代码
from sklearn.decomposition import PCA
pca = PCA(n_components=150,random_state=42)
pca.fit(x_train)

# 特征脸图
plot_faces(pca.components_,h,w)

x_train_pca = pca.transform(x_train)
x_test_pca = pca.transform(x_test)

模型训练

python 复制代码
from sklearn.svm import SVC
clf = SVC(C=10)
clf.fit(x_train_pca,y_train)
clf.score(x_test_pca,y_test)

clf = SVC(C=10)
clf.fit(x_train,y_train)
clf.score(x_test,y_test)
相关推荐
人工智能AI技术2 小时前
从零复现马斯克开源X推荐算法
人工智能
Mixtral2 小时前
4款录音转文字工具深度评测:钉钉闪记、Otter、随身鹿、讯飞听见...AI后处理能力谁更强?
人工智能
智驱力人工智能2 小时前
守护矿山动脉 矿山皮带跑偏AI识别系统的工程化实践与价值 皮带偏离检测 皮带状态异常检测 多模态皮带偏离监测系统
大数据·人工智能·opencv·算法·安全·yolo·边缘计算
大模型真好玩2 小时前
大模型训练全流程实战指南基础篇(二)——大模型文件结构解读与原理解析
人工智能·pytorch·langchain
周博洋K2 小时前
Deepseek的新论文Engram
人工智能
e***98572 小时前
2024技术趋势:AI领跑,云端边缘共舞
人工智能
智驱力人工智能2 小时前
构筑安全红线 发电站旋转设备停机合规监测的视觉分析技术与应用 旋转设备停机检测 旋转设备异常检测 设备停机AI行为建模
人工智能·opencv·算法·安全·目标检测·计算机视觉·边缘计算
独自破碎E2 小时前
怎么优化RAG的检索效果?
人工智能·自然语言处理
这儿有一堆花2 小时前
从机械傀儡到具身智能:机器人控制模型的演变实录
人工智能·机器人