图像分类笔记

一、图像分类概述

  • 定义:将不同的图像划分到不同的类别标签,目标是实现最小的分类误差。

  • 应用:广泛应用于多个领域,如安防监控(人脸识别)、医疗影像诊断(疾病识别)、自动驾驶(交通标志识别)等。

二、图像分类的三层境界

  1. 通用的多类别图像分类

    • 识别图像属于多个大类中的哪一个,如动物、植物、交通工具等。

    • 难点在于类别多样,特征差异大,需要模型具备广泛的学习能力。

  2. 子类细粒度图像分类

    • 在大类的基础上进一步细分,如识别不同种类的花卉、不同型号的汽车等。

    • 难点在于子类之间的差异细微,对模型的细节识别能力要求高。

  3. 实例级图片分类

    • 不仅要识别类别,还要区分同一类别中的不同个体,如识别不同人的面部。

    • 难点在于需要模型对个体特征有极高的敏感度,且个体间差异可能非常小。

三、图像分类评估指标

  1. 混淆矩阵

    • TP(True positive, 真正例):将正类预测为正类的数量。

    • FP(False positive, 假正例):将反类预测为正类的数量。

    • TN(True negative, 真反例):将反类预测为反类的数量。

    • FN(False negative, 假反例):将正类预测为反类的数量。

  2. 精确率(Accuracy)

    • 定义:模型识别正确的个数 / 样本的总个数。

    • 优点:直观反映模型的整体性能。

    • 缺点:在类别不平衡时,可能无法准确反映模型对少数类的识别能力。

  3. 准确率(Precision)

    • 定义:在模型识别为正类的样本中,真正为正类的样本所占的比例。

    • 优点:反映模型对正类的识别准确性。

    • 缺点:只关注模型预测为正类的情况,不考虑实际为正类但被预测为反类的情况。

  4. 召回率(Recall)

    • 定义:模型正确识别出为正类的样本的数量占总的正类样本数量的比值。

    • 优点:反映模型对正类的识别完整性。

    • 缺点:只关注实际为正类的情况,不考虑模型预测为正类但实际为反类的情况。

  5. F1_Score

    • 定义:准确率和召回率的调和平均数。

    • 优点:综合考虑了准确率和召回率,适用于类别不平衡的情况。

    • 缺点:需要在准确率和召回率之间找到平衡。

  6. P-R曲线

    • 特点:

      • 召回率增加,精度下降。

      • 曲线和坐标轴面积越大,模型越好。

      • 对正负样本不均衡敏感。

  7. 多类别分类模型

    • 混淆矩阵为k*k的矩阵,元素Cij表示第i类样本被分类器判定为第j类的数量。

    • 主对角线的元素之和为正确分类的样本数,其余元素之和为错误分类的样本数。

    • 对角线的值越大,分类器准确率越高。

四、模型基本概念

  1. 网络的深度

    • 定义:深度学习最重要的属性,计算最长路径的卷积层+全连接层数量。

    • 例子:LeNet网络,C1+C3+C5+F6+Output共5层。

    • 作用:深度增加可以提高模型的表达能力,但也可能导致训练难度增加。

  2. 网络的宽度

    • 定义:每一个网络层的通道数,以卷积网络层计算。

    • 例子:LeNet网络,C1(6),C3(16)。

    • 作用:宽度增加可以提高模型对特征的提取能力,但也可能导致计算量增加。

五、样本量过少的问题及解决方案

  1. 问题

    • 样本量极少:样本获取较难导致总体样本量过少,如工业产品、医疗等领域。

    • 影响:样本量过少可能导致模型过拟合,无法泛化到新的数据。

  2. 解决方案

    1. 迁移学习

      • 使用预训练模型:利用在大规模数据集(如ImageNet)上预训练的模型,加速模型收敛。

      • 优点:可以利用预训练模型的通用特征,减少对大量样本的依赖。

      • 缺点:需要找到与任务相关的预训练模型,且可能需要进一步微调。

    2. 数据增强

      • 有监督方法:平移、翻转、亮度、对比度、裁剪、缩放等。

        • 优点:简单易实现,可以有效增加样本的多样性。

        • 缺点:可能无法生成完全新的样本,对模型的泛化能力提升有限。

      • 无监督方法:通过GAN网络生成所需样本,然后再进行训练。

        • 优点:可以生成全新的样本,增加样本的多样性。

        • 缺点:GAN训练难度大,生成的样本可能质量不高。

相关推荐
摇滚侠3 小时前
Spring Boot 3零基础教程,WEB 开发 静态资源默认配置 笔记27
spring boot·笔记·后端
LXS_3575 小时前
Day 05 C++ 入门 之 指针
开发语言·c++·笔记·学习方法·改行学it
mtactor7 小时前
投资理财学习笔记
笔记·学习·金融
IT小哥哥呀8 小时前
电池制造行业数字化实施
大数据·制造·智能制造·数字化·mom·电池·信息化
Xi xi xi8 小时前
苏州唯理科技近期也正式发布了国内首款神经腕带产品
大数据·人工智能·经验分享·科技
yumgpkpm9 小时前
华为鲲鹏 Aarch64 环境下多 Oracle 、mysql数据库汇聚到Cloudera CDP7.3操作指南
大数据·数据库·mysql·华为·oracle·kafka·cloudera
XiangrongZ9 小时前
江协科技STM32课程笔记(五)— ADC模数转换器
笔记·科技·stm32
UMI赋能企业9 小时前
制造业流程自动化提升生产力的全面分析
大数据·人工智能
TDengine (老段)10 小时前
TDengine 数学函数 FLOOR 用户手册
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
Olrookie10 小时前
若依前后端分离版学习笔记(二十)——实现滑块验证码(vue3)
java·前端·笔记·后端·学习·vue·ruoyi