图像分类笔记

一、图像分类概述

  • 定义:将不同的图像划分到不同的类别标签,目标是实现最小的分类误差。

  • 应用:广泛应用于多个领域,如安防监控(人脸识别)、医疗影像诊断(疾病识别)、自动驾驶(交通标志识别)等。

二、图像分类的三层境界

  1. 通用的多类别图像分类

    • 识别图像属于多个大类中的哪一个,如动物、植物、交通工具等。

    • 难点在于类别多样,特征差异大,需要模型具备广泛的学习能力。

  2. 子类细粒度图像分类

    • 在大类的基础上进一步细分,如识别不同种类的花卉、不同型号的汽车等。

    • 难点在于子类之间的差异细微,对模型的细节识别能力要求高。

  3. 实例级图片分类

    • 不仅要识别类别,还要区分同一类别中的不同个体,如识别不同人的面部。

    • 难点在于需要模型对个体特征有极高的敏感度,且个体间差异可能非常小。

三、图像分类评估指标

  1. 混淆矩阵

    • TP(True positive, 真正例):将正类预测为正类的数量。

    • FP(False positive, 假正例):将反类预测为正类的数量。

    • TN(True negative, 真反例):将反类预测为反类的数量。

    • FN(False negative, 假反例):将正类预测为反类的数量。

  2. 精确率(Accuracy)

    • 定义:模型识别正确的个数 / 样本的总个数。

    • 优点:直观反映模型的整体性能。

    • 缺点:在类别不平衡时,可能无法准确反映模型对少数类的识别能力。

  3. 准确率(Precision)

    • 定义:在模型识别为正类的样本中,真正为正类的样本所占的比例。

    • 优点:反映模型对正类的识别准确性。

    • 缺点:只关注模型预测为正类的情况,不考虑实际为正类但被预测为反类的情况。

  4. 召回率(Recall)

    • 定义:模型正确识别出为正类的样本的数量占总的正类样本数量的比值。

    • 优点:反映模型对正类的识别完整性。

    • 缺点:只关注实际为正类的情况,不考虑模型预测为正类但实际为反类的情况。

  5. F1_Score

    • 定义:准确率和召回率的调和平均数。

    • 优点:综合考虑了准确率和召回率,适用于类别不平衡的情况。

    • 缺点:需要在准确率和召回率之间找到平衡。

  6. P-R曲线

    • 特点:

      • 召回率增加,精度下降。

      • 曲线和坐标轴面积越大,模型越好。

      • 对正负样本不均衡敏感。

  7. 多类别分类模型

    • 混淆矩阵为k*k的矩阵,元素Cij表示第i类样本被分类器判定为第j类的数量。

    • 主对角线的元素之和为正确分类的样本数,其余元素之和为错误分类的样本数。

    • 对角线的值越大,分类器准确率越高。

四、模型基本概念

  1. 网络的深度

    • 定义:深度学习最重要的属性,计算最长路径的卷积层+全连接层数量。

    • 例子:LeNet网络,C1+C3+C5+F6+Output共5层。

    • 作用:深度增加可以提高模型的表达能力,但也可能导致训练难度增加。

  2. 网络的宽度

    • 定义:每一个网络层的通道数,以卷积网络层计算。

    • 例子:LeNet网络,C1(6),C3(16)。

    • 作用:宽度增加可以提高模型对特征的提取能力,但也可能导致计算量增加。

五、样本量过少的问题及解决方案

  1. 问题

    • 样本量极少:样本获取较难导致总体样本量过少,如工业产品、医疗等领域。

    • 影响:样本量过少可能导致模型过拟合,无法泛化到新的数据。

  2. 解决方案

    1. 迁移学习

      • 使用预训练模型:利用在大规模数据集(如ImageNet)上预训练的模型,加速模型收敛。

      • 优点:可以利用预训练模型的通用特征,减少对大量样本的依赖。

      • 缺点:需要找到与任务相关的预训练模型,且可能需要进一步微调。

    2. 数据增强

      • 有监督方法:平移、翻转、亮度、对比度、裁剪、缩放等。

        • 优点:简单易实现,可以有效增加样本的多样性。

        • 缺点:可能无法生成完全新的样本,对模型的泛化能力提升有限。

      • 无监督方法:通过GAN网络生成所需样本,然后再进行训练。

        • 优点:可以生成全新的样本,增加样本的多样性。

        • 缺点:GAN训练难度大,生成的样本可能质量不高。

相关推荐
武子康3 小时前
大数据-109 Flink 架构深度解析:JobManager、TaskManager 与核心角色全景图
大数据·后端·flink
全栈工程师修炼指南3 小时前
DBA | MySQL 数据库基础数据操作学习实践笔记
数据库·笔记·学习·mysql·dba
天生励志1234 小时前
【学习笔记】黑马Java+AI智能辅助编程视频教程,java基础入门
java·笔记·学习
寅双木4 小时前
常见的九种二极管
笔记·嵌入式硬件·稳压二极管·tvs·肖特基二极管·发光二极管·齐纳击穿
企鹅侠客4 小时前
ElasticSearch-提高篇
大数据·elasticsearch·jenkins
CH_Qing4 小时前
Windows 显示器EDID笔记
windows·笔记·计算机外设
小二李5 小时前
学前端视频笔记
笔记
工业互联网专业5 小时前
基于大数据hive的银行信用卡用户的数仓系统的设计与实现_django
大数据·hive·django·毕业设计·源码·课程设计·数仓系统
FmixZA8 小时前
【香橙派开发笔记】中文界面与输入法配置
笔记