2024.9.20 Python模式识别新国大EE5907,PCA主成分分析,LDA线性判别分析,GMM聚类分类,SVM支持向量机

1.PCA 主成分分析用于特征提取、可视化和分类

根据要求,我在第一个代码框中完成了从指定路径提取图像数据,将其转换为灰度图像并将其展平。在这里,我将数字 88 设置为我的照片的标签,然后将所有 10 张照片传入代码。然后我定义了 PCA 函数,计算居中数据,计算协方差矩阵,并计算协方差矩阵的特征值和特征向量。然后对特征向量进行排序,并保留最大的 n 个特征向量。

接下来,我将图像的维数降低到 2D 和 3D。图像在二维和三维空间中均有显示。在图中我使用红点来显示我的图片。

py 复制代码
import os
import numpy as np
from PIL import Image
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
from random import sample

dataset_path = 'PIE'
my_photo_label = '88'
image_size = (32, 32)  

def load_images(path, label, num_images):
    images = []
    label_path = os.path.join(path, label)
    available_images = os.listdir(label_path)
    selected_images = sample(available_images, num_images)
    for image_name in selected_images:
        image_path = os.path.join(label_path, image_name)
        with Image.open(image_path) as img:
            img = img.resize(image_size).convert('L') 
            images.append(np.array(img).flatten()) 
    return images

def pca(X, num_components):
    X_meaned = X - np.mean(X , axis = 0)
    cov_mat = np.cov(X_meaned , rowvar = False)
    eigen_values , eigen_vectors = np.linalg.eigh(cov_mat)
    
    sorted_index = np.argsort(eigen_values)[::-1]
    sorted_eigenvalue = eigen_values[sorted_index]
    sorted_eigenvectors = eigen_vectors[:,sorted_index]
    eigenvector_subset = sorted_eigenvectors[:,0:num_components]  
    X_reduced = np.dot(eigenvector_subset.transpose() , X_meaned.transpose()).transpose()
    
    return X_reduced

data = []
for i in range(1, 26):
    data.extend(load_images(dataset_path, str(i), 490 // 25))
data.extend(load_images(dataset_path, '88', 10))
data = np.array(data)

data_2d = pca(data, 2)
data_3d = pca(data, 3)

pca_3 = PCA(n_components=3)
data_3d = pca_3.fit_transform(data)

plt.figure(figsize=(8, 6))
plt.scatter(data_2d[:-10, 0], data_2d[:-10, 1], alpha=0.5)
plt.scatter(data_2d[-10:, 0], data_2d[-10:, 1], color='red')  
plt.title('PCA to 2D')
plt.xlabel('Component 1')
plt.ylabel('Component 2')
plt.show()

from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(data_3d[:-10, 0], data_3d[:-10, 1], data_3d[:-10, 2], alpha=0.5)
ax.scatter(data_3d[-10:, 0], data_3d[-10:, 1], data_3d[-10:, 2], color='red')  
ax.set_title('PCA to 3D')
ax.set_xlabel('Component 1')
ax.set_ylabel('Component 2')
ax.set_zlabel('Component 3')
plt.show()

1.load_images函数,输入一个文件夹里的指定数量的图片进去,然后每张图像被打开、调整大小为 32x32,并转换为灰度图像(convert('L'))将图像数据展平(1D数组)并存储在 images 列表中。返回展平的图像列表,每张图像以 1D 数组形式表示。label只是用来找到要找的图,在这里并没有存储

2.pca函数

输入参数:X 是数据矩阵,每一行是一个样本。num_components 是要保留的主成分数量。

中心化数据,减去每列(每个特征)的均值。

计算协方差矩阵,并对协方差矩阵求特征值和特征向量。

将特征值按降序排列,并根据指定的 num_components 选择对应的特征向量子集。

将数据投影到这些选定的特征向量空间中,获得降维后的数据。

输出: 降维后的数据矩阵。

3.加载数据并执行PCA,降维后输出图片。

这个时候的数据仅是铺开的情况,并没有辨别能力,所以还需要用knn来去辨别

py 复制代码
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

data_40d = pca(data, 40)
data_80d = pca(data, 80)
data_200d = pca(data, 200)

print("Data dimensionality reduced to 40 dimensions:", data_40d.shape)
print("Data dimensionality reduced to 80 dimensions:", data_80d.shape)
print("Data dimensionality reduced to 200 dimensions:", data_200d.shape)

import numpy as np
from collections import Counter

class KNearestNeighbors:
    def __init__(self, k=3):
        self.k = k

    def fit(self, X, y):
        self.X_train = X
        self.y_train = y

    def predict(self, X):
        y_pred = [self._predict(x) for x in X]
        return np.array(y_pred)

    def _predict(self, x):
        distances = [np.sqrt(np.sum((x_train - x) ** 2)) for x_train in self.X_train]
        k_indices = np.argsort(distances)[:self.k]
        k_nearest_labels = [self.y_train[i] for i in k_indices]
        most_common = Counter(k_nearest_labels).most_common(1)
        return most_common[0][0]
def train_and_evaluate_knn(X_train, X_test, y_train, y_test, n_neighbors=3):
    knn = KNearestNeighbors(k=3)
    knn.fit(X_train, y_train)
    y_pred = knn.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    return accuracy

def split_data(data, label_counts, test_size=0.3, random_state=42):
    X_train, X_test, y_train, y_test = [], [], [], []
    for label, count in label_counts.items():
        start_index = sum(label_counts[l] for l in label_counts if int(l) < int(label))
        end_index = start_index + count
        X_label = data[start_index:end_index]
        y_label = [label] * count
        X_label_train, X_label_test, y_label_train, y_label_test = train_test_split(
            X_label, y_label, test_size=test_size, random_state=random_state
        )
        X_train.extend(X_label_train)
        X_test.extend(X_label_test)
        y_train.extend(y_label_train)
        y_test.extend(y_label_test)
    return np.array(X_train), np.array(X_test), np.array(y_train), np.array(y_test)

label_counts = {str(i): 490 // 25 for i in range(1, 26)}
label_counts['88'] = 10 

X_train_40d, X_test_40d, y_train_40d, y_test_40d = split_data(data_40d, label_counts)
X_train_80d, X_test_80d, y_train_80d, y_test_80d = split_data(data_80d, label_counts)
X_train_200d, X_test_200d, y_train_200d, y_test_200d = split_data(data_200d, label_counts)

accuracy_40d = train_and_evaluate_knn(X_train_40d, X_test_40d, y_train_40d, y_test_40d)
accuracy_80d = train_and_evaluate_knn(X_train_80d, X_test_80d, y_train_80d, y_test_80d)
accuracy_200d = train_and_evaluate_knn(X_train_200d, X_test_200d, y_train_200d, y_test_200d)

print("Classification Accuracy with 40 dimensions:", accuracy_40d)
print("Classification Accuracy with 80 dimensions:", accuracy_80d)
print("Classification Accuracy with 200 dimensions:", accuracy_200d)

这个类定义了一个KNN分类器,它通过计算测试样本和训练样本之间的距离,来判断测试样本的类别。KNN的关键思想是基于训练集中与测试样本最相似的 k 个样本来预测测试样本的类别。

首先是class kNN类,他定义了前K个最小距离,

这里的fit其实是一个存取函数,这个函数把训练集直接存起来,也没有进行什么训练,因为之后的判断中,只需要过来找他计算就好了,predict函数是接受train的数据的,然后调用了类的内部函数进行具体的计算,_predict函数的内部是,我先计算要预测的x和所有的x的欧氏距离,然后把距离存下来,然后根据距离排序,取前k个最小值,然后再取这k个数据的原始标签,数这出现的标签最多的是谁那这个图片就应该是谁。

接下来的train and evaluation其实就是在做这个事情,split_data是用来处理原始数据集的,剩下的就没什么好说的了

2.numpy和python列表相比

numpy数组更像是一个动态矩阵,他强大,而且耗费资源少,所以很实用,具体的优点如下:

1.数据类型的一致性,能动态处理所有的数据类型

2.性能好效率高,占用资源少

3.高级运算,内建函数:数组运算更快更方便,就是矩阵的运算。

4.广播机制:np.array: numpy 提供广播机制,这意味着可以对形状不同的数组进行操作,numpy 会自动扩展较小的数组以匹配较大的数组。比如他可以直接给数组+1,那么数组中所有的元素都会+1

3.LDA线性判别分析

py 复制代码
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

label_counts = {str(i): 490 // 25 for i in range(1, 26)}
label_counts['88'] = 10 

labels = []
for label, count in label_counts.items():
    labels.extend([label] * count)

labels = np.array(labels)

class LinearDiscriminantAnalysis:
    def __init__(self, n_components, reg_param=0.01):
        self.n_components = n_components
        self.reg_param = reg_param
        self.means_ = None
        self.scalings_ = None

    def fit(self, X, y):
        self.mean_ = np.mean(X, axis=0)
        X = (X - self.mean_)

        class_labels = np.unique(y)
        mean_vectors = [np.mean(X[y == cl], axis=0) for cl in class_labels]

        S_W = sum([(X[y == cl] - mv).T.dot(X[y == cl] - mv) for cl, mv in zip(class_labels, mean_vectors)])
        S_W += np.eye(S_W.shape[0]) * self.reg_param

        overall_mean = np.mean(X, axis=0)
        S_B = sum([len(X[y == cl]) * (mv - overall_mean).reshape(X.shape[1], 1).dot((mv - overall_mean).reshape(1, X.shape[1])) for cl, mv in zip(class_labels, mean_vectors)])

        A = np.linalg.inv(S_W).dot(S_B)
        U, _, _ = np.linalg.svd(A)

        self.scalings_ = U[:, :self.n_components]

    def transform(self, X):
        X = X - self.mean_
        return X.dot(self.scalings_)

    def fit_transform(self, X, y):
        self.fit(X, y)
        return self.transform(X)

def apply_lda(X, y, n_components):
    lda = LDA(n_components=n_components)
    return lda.fit_transform(X, y)

data_2d_lda = apply_lda(data, labels, 2)
data_3d_lda = apply_lda(data, labels, 3)
data_9d_lda = apply_lda(data, labels, 9)

label_to_int = {str(i): i for i in range(1, 26)}
label_to_int['88'] = 88  
int_labels = np.array([label_to_int[label] for label in labels])

#2D
plt.figure(figsize=(8, 6))
plt.scatter(data_2d_lda[:, 0], data_2d_lda[:, 1], c=int_labels, cmap='rainbow', alpha=0.5)
plt.title('LDA: Data projected onto 2 dimensions')
plt.xlabel('LD1')
plt.ylabel('LD2')
plt.show()

#3D
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(data_3d_lda[:, 0], data_3d_lda[:, 1], data_3d_lda[:, 2], c=int_labels, cmap='rainbow', alpha=0.5)
ax.set_title('LDA: Data projected onto 3 dimensions')
ax.set_xlabel('LD1')
ax.set_ylabel('LD2')
ax.set_zlabel('LD3')
plt.show()

在LDA中,SVD用于分解矩阵以提取出最重要的方向。特别是在LDA求解过程中,我们计算了矩阵

𝐴,这个矩阵是类内散度矩阵的逆乘上类间散度矩阵。SVD的目的是分解这个矩阵,提取其特征值和特征向量,从而找到数据在不同类别之间分离最好的方向。

LDA的核心思想是找到一组线性投影,将数据从高维空间投影到低维空间,同时保证在低维空间中,不同类别的样本能够很好地分离开。具体步骤如下:

1.类内散度矩阵 SW:计算每一类样本的类内差异,衡量同一类别样本之间的散布情况。

2.类间散度矩阵 SB:计算不同类别之间的差异,衡量类别之间的中心点的差异。

3.优化目标:LDA的目标是最大化类间散度和类内散度的比率,投影后类间差异越大,类内差异越小,说明投影效果越好。

4.求解矩阵 :这个矩阵的特征向量表示最佳的投影方向。

5.奇异值分解:通过SVD分解来选择前几个最大的特征值方向,即这些方向是最能区分类别的。

在代码中只要左奇异向量的前n个向量,就是我们要的。然后和PCA一样,可以用knn来进行计算。

4.GMM

GMM是无监督学习算法,它通过聚类来发现数据中的潜在结构,不需要事先知道标签。KNN等算法是有监督学习算法,它们通过已知的标签进行分类。因此,GMM不会直接利用标签,而是通过数据的特征来生成分类。

py 复制代码
import numpy as np
from scipy.stats import multivariate_normal
class GMM:
    def __init__(self, n_components=3, tol=1e-4, max_iter=100):
        self.n_components = n_components
        self.tol = tol
        self.max_iter = max_iter

    def fit(self, X):
        n_samples, n_features = X.shape
        self.weights_ = np.full(self.n_components, 1 / self.n_components)
        self.means_ = X[np.random.choice(n_samples, self.n_components, replace=False)]
        self.covariances_ = [np.cov(X.T) for _ in range(self.n_components)]
        
        log_likelihood = 0
        self.converged_ = False
        self.log_likelihoods_ = []
        
        for _ in range(self.max_iter):
            responsibilities = self._e_step(X)
            self._m_step(X, responsibilities)
            
            new_log_likelihood = np.sum(np.log(np.dot(responsibilities, self.weights_)))
            self.log_likelihoods_.append(new_log_likelihood)
            
            if abs(new_log_likelihood - log_likelihood) <= self.tol:
                self.converged_ = True
                break
                
            log_likelihood = new_log_likelihood
            
    def _e_step(self, X):
        likelihood = np.zeros((X.shape[0], self.n_components))
        for i in range(self.n_components):
            likelihood[:, i] = self.weights_[i] * multivariate_normal.pdf(X, self.means_[i], self.covariances_[i])
        responsibilities = likelihood / likelihood.sum(axis=1, keepdims=True)
        return responsibilities
    
    def _m_step(self, X, responsibilities):
        n_samples = X.shape[0]
        for i in range(self.n_components):
            weight = responsibilities[:, i].sum()
            mean = np.dot(responsibilities[:, i], X) / weight
            covariance = (np.dot((responsibilities[:, i] * (X - mean).T), (X - mean)) / weight) + self.tol * np.identity(X.shape[1])
            
            self.weights_[i] = weight / n_samples
            self.means_[i] = mean
            self.covariances_[i] = covariance
            
    def predict_proba(self, X):
        likelihood = np.zeros((X.shape[0], self.n_components))
        for i in range(self.n_components):
            likelihood[:, i] = self.weights_[i] * multivariate_normal.pdf(X, self.means_[i], self.covariances_[i])
        return likelihood / likelihood.sum(axis=1, keepdims=True)

目标是期望最大化,E是期望,M是最大化,通过EM算法在最大迭代次数或达到收敛条件(对数似然变化小于 tol)之间进行迭代:

E步: 计算每个数据点属于每个高斯分布的责任度(即属于某个簇的概率)。

M步: 根据责任度重新估计每个簇的参数(权重、均值和协方差)。

具体如下:

1.初始定义,定义聚类类别数,收敛域值和最大化次数

2.E步中,计算责任度,即每个数据点属于每个簇的概率,用似然值除以所有簇的似然值之和,看看谁最大

3.在 M 步中,算法根据责任度更新模型的参数,具体分为:

权重: 每个簇的权重 𝜋𝑘由该簇的责任度之和决定:

均值: 每个簇的均值 𝜇𝑘是该簇责任度加权后的均值

协方差: 每个簇的协方差矩阵也根据责任度进行更新

这样在最后的时候就可以收敛了,就不会再大的变化了。

问题:

优势:

柔性较强:与K-Means不同,GMM允许每个簇具有不同的形状(由协方差矩阵决定),因此能更好地处理复杂的数据分布。

软分类:GMM为每个数据点分配概率,而不是硬性分配到某个簇,适合处理一些数据边界不清晰的情况。

无监督学习:GMM可以在没有标签的情况下发现数据的潜在结构。

劣势:

对初始参数敏感:GMM的结果可能依赖于初始参数的选择,特别是初始均值的选择。

计算复杂度较高:每次迭代中都需要计算高斯分布的概率,尤其是在处理高维数据时,计算开销较大。

需要假设数据来自高斯分布:如果数据分布与高斯分布假设差距较大,GMM的效果可能不理想。

5.SVM支持向量机

VM 的核心思想是寻找一个能够最大化分类间隔(Margin)的超平面。分类间隔是指超平面到最近的训练样本(支持向量)的距离,SVM 尽可能选择让这个间隔最大的超平面来划分不同类别的数据点。

1.线性可分的情况:在二维空间里,超平面就是一条直线。在高维空间,超平面是一个 d−1 维的平面,用来将不同类别的数据分开。

支持向量:指那些位于分类间隔边界上的样本点,这些点对超平面的最终位置有决定性影响。

SVM 希望找到如下形式的超平面:

𝑤𝑇𝑥+b=0 其中,𝑤是权重向量,b 是偏置,𝑥是输入向量。目标是让不同类别的样本点尽可能远离这个超平面。

2.软间隔与正则化参数 𝐶在实际问题中,数据可能并不是线性可分的,这时就需要允许一定的误分类。这就引入了软间隔和正则化参数

𝐶。

软间隔:允许部分数据点处于超平面的错误一侧,即允许一定量的误分类。C 参数控制误分类的容忍度。具体来说:

大 C:对误分类的容忍度低,会导致模型更加严格地拟合训练数据,可能导致过拟合。

小 C:对误分类的容忍度高,允许更多的误分类,以换取更平滑的分类边界,可能导致欠拟合。

py 复制代码
from sklearn.svm import SVC

def train_and_evaluate_svm(X_train, X_test, y_train, y_test, C):
    svm = SVC(C=C, kernel='linear', random_state=42)
    svm.fit(X_train, y_train)
    y_pred = svm.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    return accuracy

C_values = [0.01, 0.1, 1]
X_train_raw, X_test_raw, y_train_raw, y_test_raw = split_data(data, label_counts)

for C in C_values:
    accuracy_raw = train_and_evaluate_svm(X_train_raw, X_test_raw, y_train_raw, y_test_raw, C)
    accuracy_80d = train_and_evaluate_svm(X_train_80d, X_test_80d, y_train_80d, y_test_80d, C)
    accuracy_200d = train_and_evaluate_svm(X_train_200d, X_test_200d, y_train_200d, y_test_200d, C)
    
    print(f"Classification Accuracy with raw vector and C={C}: {accuracy_raw}")
    print(f"Classification Accuracy with 80 dimensions and C={C}: {accuracy_80d}")
    print(f"Classification Accuracy with 200 dimensions and C={C}: {accuracy_200d}")
相关推荐
小二·2 小时前
java基础面试题笔记(基础篇)
java·笔记·python
小喵要摸鱼3 小时前
Python 神经网络项目常用语法
python
Swift社区4 小时前
LeetCode - #139 单词拆分
算法·leetcode·职场和发展
Kent_J_Truman4 小时前
greater<>() 、less<>()及运算符 < 重载在排序和堆中的使用
算法
一念之坤4 小时前
零基础学Python之数据结构 -- 01篇
数据结构·python
IT 青年5 小时前
数据结构 (1)基本概念和术语
数据结构·算法
wxl7812275 小时前
如何使用本地大模型做数据分析
python·数据挖掘·数据分析·代码解释器
NoneCoder5 小时前
Python入门(12)--数据处理
开发语言·python
Dong雨5 小时前
力扣hot100-->栈/单调栈
算法·leetcode·职场和发展
SoraLuna5 小时前
「Mac玩转仓颉内测版24」基础篇4 - 浮点类型详解
开发语言·算法·macos·cangjie