机器学习(13-2)

PCA的算法实现

数据准备

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
w,b = 1.8,2.5
np.random.seed(0)
x1 = np.random.rand(100)*4
noise = np.random.randn(100)
x2 = w * x1 +b +noise
## 纵向合并
x = np.vstack([x1,x2]).T

零均值化

python 复制代码
np.mean(x,axis=0)
x -=np.mean(x,axis=0)

PCA实现

先把二维数据压缩成一维(只保留第 1 主成分),再用这一维信息把数据"投影还原"回二维,并和原始数据做对比

python 复制代码
from sklearn.decomposition import PCA
# n_compontents:想要的主成分的个数
pca = PCA(n_components=1)
pca.fit(x)
x_pca = pca.transform(x)
# 逆变换:把一维点重新拉回二维空间
x_pca_inv = pca.inverse_transform(x_pca)
plt.scatter(x[:,0],x[:,1],s=10)
plt.scatter(x_pca_inv[:,0],x_pca_inv[:,1],s=10,c='r')
plt.show()

降维

数据准备

python 复制代码
from sklearn.datasets import load_digits
digits = load_digits()
x = digits.data
y = digits.target
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state=233)

PCA降维

python 复制代码
from sklearn.decomposition import PCA

# 创建一个 PCA 模型,要求保留至少 90% 的数据方差信息
# 即:让模型自己决定降到多少维,但最后能保留 90% 的整体信息
pca = PCA(0.9)
pca.fit(x_train)

## 生成一份降维后的新数据
x_train_pca = pca.transform(x_train)
x_test_pca = pca.transform(x_test)

模型训练

python 复制代码
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(solver='saga',tol=0.001,max_iter=500,random_state=233)

%%time
clf.fit(x_train,y_train)
clf.score(x_test,y_test)

%%time
clf.fit(x_train_pca,y_train)
clf.score(x_test_pca,y_test)

PCA在降噪中的使用

查看数据集图片

python 复制代码
## 数据集同上,使用digits数据集
def plot_top20_digits(x):
    for i in range(20):
        # 绘制成一个4*5的图
        plt.subplot(4,5,i+1)
        plt.xticks([])
        plt.yticks([])
        plt.imshow(x[i].reshape(8,8),cmap=plt.cm.gray_r,interpolation='nearest')
    plt.show()

plot_top20_digits(x)

添加噪声

python 复制代码
# 添加噪声数据
np.random.seed(0)
# *3:扩大噪声的影响
x_noise = x + np.random.randn(x.shape[0],x.shape[1])*3

plot_top20_digits(x_noise)

PCA降噪

python 复制代码
pca = PCA(0.5)
pca.fit(x_noise)
x_noise_pca = pca.transform(x_noise)
x_noise_inv = pca.inverse_transform(x_noise_pca)

# 相比噪声数据去除掉了很多的噪点
plot_top20_digits(x_noise_inv)

PCA在人脸识别中的使用

数据准备

**fetch_lfw_people**是一个用于人脸识别与人脸表示学习的经典数据集,包含多位名人的灰度人脸图片,尺寸统一(常见是 62×47),data.target_names表示ID->人名的映射,包含5749人的照片

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_lfw_people
lfw = fetch_lfw_people()
x = lfw.data
y = lfw.target
# 样本数量,高度,宽度
n_samples,h,w = lfw.images.shape

查看数据集图片

python 复制代码
def plot_faces(data,h,w,n_row=3,n_col=4):
    plt.figure(figsize=(1.8*n_col,2.4*n_row))
    for i in range(n_row*n_col):
        plt.subplot(n_row,n_col,i+1)
        plt.xticks(())
        plt.yticks(())
        plt.imshow(data[i].reshape((h,w)),cmap = plt.cm.gray)

    plt.show()
plot_faces(x,h,w)

数据集处理

在使用 PCA 实现人脸识别之前,首先需要对人脸数据进行加载、筛选、划分以及标准化处理

筛选

  • min_faces_per_person=70 只保留至少包含 70 张人脸图片的人物,用于减少类别不平衡问题,提高识别任务的稳定性。
  • resize=0.4 将原始人脸图像按比例缩小,降低像素维度,从而减少计算量并加快 PCA 训练速度

标准化:

  • 将每个像素特征变换为:均值为 0 方差为 1
  • 保证不同像素维度在 PCA 中具有同等重要性
  • 只在训练集上 fit,再用同一变换作用于测试集,避免信息泄露
python 复制代码
# min_faces_per_person:筛选每人至少包含70张图片的数据
# resize=0.4:降低分辨率,减少维度,加快 PCA
lfw_people = fetch_lfw_people(min_faces_per_person=70,resize=0.4)
x = lfw_people.data
y = lfw_people.target
n_sanples,h,w = lfw_people.images.shape

from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,train_size=0.75,random_state=42)

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(x_train)
x_train = scaler.transform(x_train)
x_test = scaler.transform(x_test)

PCA实现

生成的是 PCA 学到的特征脸(Eigenfaces),它们不是具体的人脸,而是描述人脸数据集中主要变化模式的基向量,是人脸降维与识别的核心表示

python 复制代码
from sklearn.decomposition import PCA
pca = PCA(n_components=150,random_state=42)
pca.fit(x_train)

# 特征脸图
plot_faces(pca.components_,h,w)

x_train_pca = pca.transform(x_train)
x_test_pca = pca.transform(x_test)

模型训练

python 复制代码
from sklearn.svm import SVC
clf = SVC(C=10)
clf.fit(x_train_pca,y_train)
clf.score(x_test_pca,y_test)

clf = SVC(C=10)
clf.fit(x_train,y_train)
clf.score(x_test,y_test)
相关推荐
好家伙VCC6 分钟前
**神经编码新视角:用Python实现生物启发的神经信号压缩与解码算法**在人工智能飞速发展的今天
java·人工智能·python·算法
Navicat中国6 分钟前
如何使用 Ollama 配置 AI 助手 | Navicat 教程
数据库·人工智能·ai·navicat·ollama
@小匠4 小时前
Read Frog:一款开源的 AI 驱动浏览器语言学习扩展
人工智能·学习
山间小僧6 小时前
「AI学习笔记」RNN
机器学习·aigc·ai编程
网教盟人才服务平台7 小时前
“方班预备班盾立方人才培养计划”正式启动!
大数据·人工智能
芯智工坊7 小时前
第15章 Mosquitto生产环境部署实践
人工智能·mqtt·开源
菜菜艾7 小时前
基于llama.cpp部署私有大模型
linux·运维·服务器·人工智能·ai·云计算·ai编程
TDengine (老段)8 小时前
TDengine IDMP 可视化 —— 分享
大数据·数据库·人工智能·时序数据库·tdengine·涛思数据·时序数据
小真zzz8 小时前
搜极星:第三方多平台中立GEO洞察专家全面解析
人工智能·搜索引擎·seo·geo·中立·第三方平台
GreenTea8 小时前
从 Claw-Code 看 AI 驱动的大型项目开发:2 人 + 10 个自治 Agent 如何产出 48K 行 Rust 代码
前端·人工智能·后端