图像分类笔记

一、图像分类概述

  • 定义:将不同的图像划分到不同的类别标签,目标是实现最小的分类误差。

  • 应用:广泛应用于多个领域,如安防监控(人脸识别)、医疗影像诊断(疾病识别)、自动驾驶(交通标志识别)等。

二、图像分类的三层境界

  1. 通用的多类别图像分类

    • 识别图像属于多个大类中的哪一个,如动物、植物、交通工具等。

    • 难点在于类别多样,特征差异大,需要模型具备广泛的学习能力。

  2. 子类细粒度图像分类

    • 在大类的基础上进一步细分,如识别不同种类的花卉、不同型号的汽车等。

    • 难点在于子类之间的差异细微,对模型的细节识别能力要求高。

  3. 实例级图片分类

    • 不仅要识别类别,还要区分同一类别中的不同个体,如识别不同人的面部。

    • 难点在于需要模型对个体特征有极高的敏感度,且个体间差异可能非常小。

三、图像分类评估指标

  1. 混淆矩阵

    • TP(True positive, 真正例):将正类预测为正类的数量。

    • FP(False positive, 假正例):将反类预测为正类的数量。

    • TN(True negative, 真反例):将反类预测为反类的数量。

    • FN(False negative, 假反例):将正类预测为反类的数量。

  2. 精确率(Accuracy)

    • 定义:模型识别正确的个数 / 样本的总个数。

    • 优点:直观反映模型的整体性能。

    • 缺点:在类别不平衡时,可能无法准确反映模型对少数类的识别能力。

  3. 准确率(Precision)

    • 定义:在模型识别为正类的样本中,真正为正类的样本所占的比例。

    • 优点:反映模型对正类的识别准确性。

    • 缺点:只关注模型预测为正类的情况,不考虑实际为正类但被预测为反类的情况。

  4. 召回率(Recall)

    • 定义:模型正确识别出为正类的样本的数量占总的正类样本数量的比值。

    • 优点:反映模型对正类的识别完整性。

    • 缺点:只关注实际为正类的情况,不考虑模型预测为正类但实际为反类的情况。

  5. F1_Score

    • 定义:准确率和召回率的调和平均数。

    • 优点:综合考虑了准确率和召回率,适用于类别不平衡的情况。

    • 缺点:需要在准确率和召回率之间找到平衡。

  6. P-R曲线

    • 特点:

      • 召回率增加,精度下降。

      • 曲线和坐标轴面积越大,模型越好。

      • 对正负样本不均衡敏感。

  7. 多类别分类模型

    • 混淆矩阵为k*k的矩阵,元素Cij表示第i类样本被分类器判定为第j类的数量。

    • 主对角线的元素之和为正确分类的样本数,其余元素之和为错误分类的样本数。

    • 对角线的值越大,分类器准确率越高。

四、模型基本概念

  1. 网络的深度

    • 定义:深度学习最重要的属性,计算最长路径的卷积层+全连接层数量。

    • 例子:LeNet网络,C1+C3+C5+F6+Output共5层。

    • 作用:深度增加可以提高模型的表达能力,但也可能导致训练难度增加。

  2. 网络的宽度

    • 定义:每一个网络层的通道数,以卷积网络层计算。

    • 例子:LeNet网络,C1(6),C3(16)。

    • 作用:宽度增加可以提高模型对特征的提取能力,但也可能导致计算量增加。

五、样本量过少的问题及解决方案

  1. 问题

    • 样本量极少:样本获取较难导致总体样本量过少,如工业产品、医疗等领域。

    • 影响:样本量过少可能导致模型过拟合,无法泛化到新的数据。

  2. 解决方案

    1. 迁移学习

      • 使用预训练模型:利用在大规模数据集(如ImageNet)上预训练的模型,加速模型收敛。

      • 优点:可以利用预训练模型的通用特征,减少对大量样本的依赖。

      • 缺点:需要找到与任务相关的预训练模型,且可能需要进一步微调。

    2. 数据增强

      • 有监督方法:平移、翻转、亮度、对比度、裁剪、缩放等。

        • 优点:简单易实现,可以有效增加样本的多样性。

        • 缺点:可能无法生成完全新的样本,对模型的泛化能力提升有限。

      • 无监督方法:通过GAN网络生成所需样本,然后再进行训练。

        • 优点:可以生成全新的样本,增加样本的多样性。

        • 缺点:GAN训练难度大,生成的样本可能质量不高。

相关推荐
千里念行客2405 小时前
国产射频芯片“小巨人”昂瑞微今日招股 拟于12月5日进行申购
大数据·前端·人工智能·科技
客梦5 小时前
Java 道路信息系统
java·笔记
一水鉴天5 小时前
整体设计 定稿 之15 chat分类的专题讨论(codebuddy)
大数据·分类·数据挖掘
一只侯子14 小时前
Face AE Tuning
图像处理·笔记·学习·算法·计算机视觉
7***u21615 小时前
显卡(Graphics Processing Unit,GPU)架构详细解读
大数据·网络·架构
whale fall16 小时前
【剑雅14】笔记
笔记
deng120416 小时前
基于LeNet-5的图像分类小结
人工智能·分类·数据挖掘
星空的资源小屋18 小时前
跨平台下载神器ArrowDL,一网打尽所有资源
javascript·笔记·django
Xudde.18 小时前
Quick2靶机渗透
笔记·学习·安全·web安全·php
AA陈超19 小时前
Git常用命令大全及使用指南
笔记·git·学习