图像分类笔记

一、图像分类概述

定义：将不同的图像划分到不同的类别标签，目标是实现最小的分类误差。
应用：广泛应用于多个领域，如安防监控（人脸识别）、医疗影像诊断（疾病识别）、自动驾驶（交通标志识别）等。

二、图像分类的三层境界

通用的多类别图像分类
- 识别图像属于多个大类中的哪一个，如动物、植物、交通工具等。
- 难点在于类别多样，特征差异大，需要模型具备广泛的学习能力。
子类细粒度图像分类
- 在大类的基础上进一步细分，如识别不同种类的花卉、不同型号的汽车等。
- 难点在于子类之间的差异细微，对模型的细节识别能力要求高。
实例级图片分类
- 不仅要识别类别，还要区分同一类别中的不同个体，如识别不同人的面部。
- 难点在于需要模型对个体特征有极高的敏感度，且个体间差异可能非常小。

三、图像分类评估指标

混淆矩阵
- TP（True positive, 真正例）：将正类预测为正类的数量。
- FP（False positive, 假正例）：将反类预测为正类的数量。
- TN（True negative, 真反例）：将反类预测为反类的数量。
- FN（False negative, 假反例）：将正类预测为反类的数量。
精确率（Accuracy）
- 定义：模型识别正确的个数 / 样本的总个数。
- 优点：直观反映模型的整体性能。
- 缺点：在类别不平衡时，可能无法准确反映模型对少数类的识别能力。
准确率（Precision）
- 定义：在模型识别为正类的样本中，真正为正类的样本所占的比例。
- 优点：反映模型对正类的识别准确性。
- 缺点：只关注模型预测为正类的情况，不考虑实际为正类但被预测为反类的情况。
召回率（Recall）
- 定义：模型正确识别出为正类的样本的数量占总的正类样本数量的比值。
- 优点：反映模型对正类的识别完整性。
- 缺点：只关注实际为正类的情况，不考虑模型预测为正类但实际为反类的情况。
F1_Score
- 定义：准确率和召回率的调和平均数。
- 优点：综合考虑了准确率和召回率，适用于类别不平衡的情况。
- 缺点：需要在准确率和召回率之间找到平衡。
P-R曲线
- 特点：
  - 召回率增加，精度下降。
  - 曲线和坐标轴面积越大，模型越好。
  - 对正负样本不均衡敏感。
多类别分类模型
- 混淆矩阵为k*k的矩阵，元素Cij表示第i类样本被分类器判定为第j类的数量。
- 主对角线的元素之和为正确分类的样本数，其余元素之和为错误分类的样本数。
- 对角线的值越大，分类器准确率越高。

四、模型基本概念

网络的深度
- 定义：深度学习最重要的属性，计算最长路径的卷积层+全连接层数量。
- 例子：LeNet网络，C1+C3+C5+F6+Output共5层。
- 作用：深度增加可以提高模型的表达能力，但也可能导致训练难度增加。
网络的宽度
- 定义：每一个网络层的通道数，以卷积网络层计算。
- 例子：LeNet网络，C1(6),C3(16)。
- 作用：宽度增加可以提高模型对特征的提取能力，但也可能导致计算量增加。

五、样本量过少的问题及解决方案

问题
- 样本量极少：样本获取较难导致总体样本量过少，如工业产品、医疗等领域。
- 影响：样本量过少可能导致模型过拟合，无法泛化到新的数据。
解决方案
1. 迁移学习
  - 使用预训练模型：利用在大规模数据集（如ImageNet）上预训练的模型，加速模型收敛。
  - 优点：可以利用预训练模型的通用特征，减少对大量样本的依赖。
  - 缺点：需要找到与任务相关的预训练模型，且可能需要进一步微调。
2. 数据增强
  - 有监督方法：平移、翻转、亮度、对比度、裁剪、缩放等。
    - 优点：简单易实现，可以有效增加样本的多样性。
    - 缺点：可能无法生成完全新的样本，对模型的泛化能力提升有限。
  - 无监督方法：通过GAN网络生成所需样本，然后再进行训练。
    - 优点：可以生成全新的样本，增加样本的多样性。
    - 缺点：GAN训练难度大，生成的样本可能质量不高。