使用sklearn中的Adaboost分类器来实现ORL人脸分类

使用sklearn中的Adaboost分类器来实现ORL人脸分类

前言:博主上网浏览使用Adaboost实现人脸分类时,发现并没有分类,大部分全都是关于人脸识别检测的,并没有实现对某个人的精准分类(例如,这个人叫什么名字),有关ORL识别的,大多是用PCA降维或者SVM实现的,也没有用Adaboost的,故因此写了个随笔。

算法原理

算法过程:

假设我们有个二分类训练数据集T={(x~1~,y~1~),...,(x~N~,y~N~)},y~i~∈{−1,+1}.

  • 1)在刚开始,我们让每个变量x~i~都有相同的权重,也就是说,刚开始每个样本在基分类器中的作用相同。

    ​ D~j~ = (w~j1~,w~j2~,.... w~ji~,.... w~jN~) w~jN~ = 1/N

    D~j~表示权重分布的向量,其中j表示当前是第一轮因为后面还要进行很多轮学习,每次都会改变这个分布。w~ji~表示第j轮对应的第x~i~变量

  • 2)对 m = 1 , 2 , . . . , M ,共计M个基分类器 进行以下步骤:

    ①:学习得到基本分类器G~m~(x)

    ​ 使用具有权值分布D~m~的训练数据集进行学习,得到基本分类器G~m~(x),G~m~(x)可以根据输入给出 +1 或 -1 的输出

    ②:计算单个基分类器的分类误差率e~m~

    ​ e~m~ = \(\sum_{i=1}^N\) w~mi~ I(G~m~(x~i~) \(\neq\)y~i~)

    这个公式什么意思呢:对于第m轮的误差 e~m~,有对应x~i~对应的权重w~mi~,I 是指示函数,当后面括号里的式子成立就取1,不成立就取0, i = 1 ,2,...N 所有的x~i~ 所以 e~m~ 就是把所有分类错误的样本权重加起来,如果初始权重相等,那么5个样本分错2个,错误率就是0.4,如果权重是[0.5,0.1,0.1,0.1,0.1,0.1],而权重为0.5的样本分错了,最后错误率就是0.5。因此这个设计使得,将权重高的样本分类正确能显著降低分类误差率。

    ③:计算 G~m~(x) 的分类器投票权重α~m~(即在最终结果所占的重要性)

    假设e~m~ = 0.3,即分类误差较小,错误率较小,则,α较大。

    对于二分类问题,错误率超过0.5的话,只要进行简单的完全反转就可以使其降到0.5以下。举例来说,若 分类结果为 [1,1,1,-1] 错误率0.75,那么只要改成 [-1,-1,-1,1] 错误率就只有0.25了。(另一种想法是随机分类的错误率是0.5,弱学习器虽然弱,正确率也是要略高于随机分类的。

    ④:更新训练集的权重分布

    对于第m+1轮:

    w~m+1,i~ = \(w_{mi}e^{-α_my_iG_m(x_i)}/Z_m\)

    其中,\(Z_m = \sum_{i=1}^Ne^{-α_my_iG_m(x_i)}\)

  • 得到最终分类器

代码实现

实验平台:kaggle 在线notebook kaggle具有不用配环境,有大量在线公共数据集,省去了很多麻烦

ORL数据集

我们采用公共数据库,进行算法实现。

选取ORL人脸数据库作为实验样本,总共40个人,每人10幅图像,图像大小为 112*92 像素。图像本身已经经过处理,不需要进行归一化和校准等工作。实验样本分为训 练样本和测试样本。首先设置训练样本集,选择40个人前6张图片作为训练样本,进行训练。然后设置测试样本集,将40个人后4张图片作为测试样本,进行选取识别。

该数据集来源:https://www.kaggle.com/datasets/jagadeeshkasaraneni/orlfaces

具体代码:

python 复制代码
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

输出:/kaggle/input/orlfaces/ORL_faces.npz

python 复制代码
orlfaces = np.load("/kaggle/input/orlfaces/ORL_faces.npz")
orlfaces.files

输出:['testY', 'testX', 'trainX', 'trainY']

该数据集中的训练集和测试集已经给我们划分好了 训练集60% 测试集40%

python 复制代码
print(orlfaces['trainX'].shape)
print(orlfaces['testX'].shape)

输出:(240, 10304)

(160, 10304)

240是指总共有24个人的图片,每个人有10张,所以是240

测试集共有16个人,因此第一维的值为160

112 * 92 = 10304,即我们要的图片是112 * 92的,他放在同一维度了,所以是10304

python 复制代码
X_train = np.reshape(orlfaces['trainX'], (240, 112, 92))
Y_train = orlfaces['trainY']
X_test = np.reshape(orlfaces['testX'], (160, 112, 92))
Y_test = orlfaces['testY']
python 复制代码
print(Y_train.shape)
Y_train

输出:

(240,)

array([ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1,

1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,

2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4,

4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5,

5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7,

7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8,

8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9,

9, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 11, 11,

11, 11, 11, 11, 11, 11, 11, 11, 12, 12, 12, 12, 12, 12, 12, 12, 12,

12, 12, 12, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 14, 14,

14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 15, 15, 15, 15, 15, 15, 15,

15, 15, 15, 15, 15, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16,

17, 17, 17, 17, 17, 17, 17, 17, 17, 17, 17, 17, 18, 18, 18, 18, 18,

18, 18, 18, 18, 18, 18, 18, 19, 19, 19, 19, 19, 19, 19, 19, 19, 19,

19, 19], dtype=uint8)

我们只展示其中3张图片:

python 复制代码
## import matplotlib.pyplot as plt
%matplotlib inline

def show_images(images) -> None:
    n: int = len(images)
    for i in range(10):  # 图片太多了,展示10张图片算了吧   否则这里填 range(n)
        plt.figure()
        plt.imshow(images[i])

show_images(X_train)

输出:

多余图片省略...

python 复制代码
from sklearn.ensemble import AdaBoostClassifier
from sklearn.metrics import accuracy_score


# 假设X_train和y_train是训练样本和标签,X_test和y_test是测试样本和标签
# 这里需要根据实际的图像数据来加载和预处理

# 初始化Adaboost分类器
ada_clf = AdaBoostClassifier(n_estimators=200,learning_rate = 0.1, random_state=42)   



# 训练模型
ada_clf.fit(X_train.reshape(-1,112*92),Y_train)    # Adaboost分类器要求X_train维度 <= 2

# 预测测试样本
Y_pred = ada_clf.predict(X_test.reshape(-1,112*92))

# 计算准确率
accuracy = accuracy_score(Y_test, Y_pred)
print(f"识别准确率: {accuracy:.2f}")

输出:

识别准确率: 0.76

python 复制代码
print(Y_test,Y_pred)

我们可以将预测Y和真实Y打印出来,进行比较,准确率为0.76

我们可以调整n_estimators,learning_rate , random_stat取值,来提升准确率:

  • n_estimators:这个参数指定了要使用的弱分类器的数量。n_estimators的值越大,意味着更多的弱分类器会被用来构建强分类器。这可能会导致更好的性能,但也会增加模型的复杂度和训练时间。
  • learning_rate:这个参数是每个弱分类器对最终预测的贡献率。在AdaBoost算法中,每个弱分类器的权重与其准确性成比例。learning_rate参数控制这个比例的大小。较小的learning_rate`意味着每个弱分类器对最终结果的影响较小,可能需要更多的弱分类器来达到相同的效果。
  • random_state:这个参数用于控制随机数生成器的种子,以确保结果的可重复性。设置random_state`可以确保每次运行代码时,只要输入数据不变,得到的结果都是相同的。这对于调试和实验是非常重要的,因为它允许研究人员比较不同模型或参数设置的效果。

参考

https://blog.csdn.net/codelady_g/article/details/122571189
https://www.kaggle.com/code/jagadeeshkasaraneni/orlfacerecognition/notebook