一、图像分类概述
-
定义:将不同的图像划分到不同的类别标签,目标是实现最小的分类误差。
-
应用:广泛应用于多个领域,如安防监控(人脸识别)、医疗影像诊断(疾病识别)、自动驾驶(交通标志识别)等。
二、图像分类的三层境界
-
通用的多类别图像分类
-
识别图像属于多个大类中的哪一个,如动物、植物、交通工具等。
-
难点在于类别多样,特征差异大,需要模型具备广泛的学习能力。
-
-
子类细粒度图像分类
-
在大类的基础上进一步细分,如识别不同种类的花卉、不同型号的汽车等。
-
难点在于子类之间的差异细微,对模型的细节识别能力要求高。
-
-
实例级图片分类
-
不仅要识别类别,还要区分同一类别中的不同个体,如识别不同人的面部。
-
难点在于需要模型对个体特征有极高的敏感度,且个体间差异可能非常小。
-
三、图像分类评估指标
-
混淆矩阵
-
TP(True positive, 真正例):将正类预测为正类的数量。
-
FP(False positive, 假正例):将反类预测为正类的数量。
-
TN(True negative, 真反例):将反类预测为反类的数量。
-
FN(False negative, 假反例):将正类预测为反类的数量。
-
-
精确率(Accuracy)
-
定义:模型识别正确的个数 / 样本的总个数。
-
优点:直观反映模型的整体性能。
-
缺点:在类别不平衡时,可能无法准确反映模型对少数类的识别能力。
-
-
准确率(Precision)
-
定义:在模型识别为正类的样本中,真正为正类的样本所占的比例。
-
优点:反映模型对正类的识别准确性。
-
缺点:只关注模型预测为正类的情况,不考虑实际为正类但被预测为反类的情况。
-
-
召回率(Recall)
-
定义:模型正确识别出为正类的样本的数量占总的正类样本数量的比值。
-
优点:反映模型对正类的识别完整性。
-
缺点:只关注实际为正类的情况,不考虑模型预测为正类但实际为反类的情况。
-
-
F1_Score
-
定义:准确率和召回率的调和平均数。
-
优点:综合考虑了准确率和召回率,适用于类别不平衡的情况。
-
缺点:需要在准确率和召回率之间找到平衡。
-
-
P-R曲线
-
特点:
-
召回率增加,精度下降。
-
曲线和坐标轴面积越大,模型越好。
-
对正负样本不均衡敏感。
-
-
-
多类别分类模型
-
混淆矩阵为k*k的矩阵,元素Cij表示第i类样本被分类器判定为第j类的数量。
-
主对角线的元素之和为正确分类的样本数,其余元素之和为错误分类的样本数。
-
对角线的值越大,分类器准确率越高。
-
四、模型基本概念
-
网络的深度
-
定义:深度学习最重要的属性,计算最长路径的卷积层+全连接层数量。
-
例子:LeNet网络,C1+C3+C5+F6+Output共5层。
-
作用:深度增加可以提高模型的表达能力,但也可能导致训练难度增加。
-
-
网络的宽度
-
定义:每一个网络层的通道数,以卷积网络层计算。
-
例子:LeNet网络,C1(6),C3(16)。
-
作用:宽度增加可以提高模型对特征的提取能力,但也可能导致计算量增加。
-
五、样本量过少的问题及解决方案
-
问题
-
样本量极少:样本获取较难导致总体样本量过少,如工业产品、医疗等领域。
-
影响:样本量过少可能导致模型过拟合,无法泛化到新的数据。
-
-
解决方案
-
迁移学习
-
使用预训练模型:利用在大规模数据集(如ImageNet)上预训练的模型,加速模型收敛。
-
优点:可以利用预训练模型的通用特征,减少对大量样本的依赖。
-
缺点:需要找到与任务相关的预训练模型,且可能需要进一步微调。
-
-
数据增强
-
有监督方法:平移、翻转、亮度、对比度、裁剪、缩放等。
-
优点:简单易实现,可以有效增加样本的多样性。
-
缺点:可能无法生成完全新的样本,对模型的泛化能力提升有限。
-
-
无监督方法:通过GAN网络生成所需样本,然后再进行训练。
-
优点:可以生成全新的样本,增加样本的多样性。
-
缺点:GAN训练难度大,生成的样本可能质量不高。
-
-
-