图像分类笔记

一、图像分类概述

  • 定义:将不同的图像划分到不同的类别标签,目标是实现最小的分类误差。

  • 应用:广泛应用于多个领域,如安防监控(人脸识别)、医疗影像诊断(疾病识别)、自动驾驶(交通标志识别)等。

二、图像分类的三层境界

  1. 通用的多类别图像分类

    • 识别图像属于多个大类中的哪一个,如动物、植物、交通工具等。

    • 难点在于类别多样,特征差异大,需要模型具备广泛的学习能力。

  2. 子类细粒度图像分类

    • 在大类的基础上进一步细分,如识别不同种类的花卉、不同型号的汽车等。

    • 难点在于子类之间的差异细微,对模型的细节识别能力要求高。

  3. 实例级图片分类

    • 不仅要识别类别,还要区分同一类别中的不同个体,如识别不同人的面部。

    • 难点在于需要模型对个体特征有极高的敏感度,且个体间差异可能非常小。

三、图像分类评估指标

  1. 混淆矩阵

    • TP(True positive, 真正例):将正类预测为正类的数量。

    • FP(False positive, 假正例):将反类预测为正类的数量。

    • TN(True negative, 真反例):将反类预测为反类的数量。

    • FN(False negative, 假反例):将正类预测为反类的数量。

  2. 精确率(Accuracy)

    • 定义:模型识别正确的个数 / 样本的总个数。

    • 优点:直观反映模型的整体性能。

    • 缺点:在类别不平衡时,可能无法准确反映模型对少数类的识别能力。

  3. 准确率(Precision)

    • 定义:在模型识别为正类的样本中,真正为正类的样本所占的比例。

    • 优点:反映模型对正类的识别准确性。

    • 缺点:只关注模型预测为正类的情况,不考虑实际为正类但被预测为反类的情况。

  4. 召回率(Recall)

    • 定义:模型正确识别出为正类的样本的数量占总的正类样本数量的比值。

    • 优点:反映模型对正类的识别完整性。

    • 缺点:只关注实际为正类的情况,不考虑模型预测为正类但实际为反类的情况。

  5. F1_Score

    • 定义:准确率和召回率的调和平均数。

    • 优点:综合考虑了准确率和召回率,适用于类别不平衡的情况。

    • 缺点:需要在准确率和召回率之间找到平衡。

  6. P-R曲线

    • 特点:

      • 召回率增加,精度下降。

      • 曲线和坐标轴面积越大,模型越好。

      • 对正负样本不均衡敏感。

  7. 多类别分类模型

    • 混淆矩阵为k*k的矩阵,元素Cij表示第i类样本被分类器判定为第j类的数量。

    • 主对角线的元素之和为正确分类的样本数,其余元素之和为错误分类的样本数。

    • 对角线的值越大,分类器准确率越高。

四、模型基本概念

  1. 网络的深度

    • 定义:深度学习最重要的属性,计算最长路径的卷积层+全连接层数量。

    • 例子:LeNet网络,C1+C3+C5+F6+Output共5层。

    • 作用:深度增加可以提高模型的表达能力,但也可能导致训练难度增加。

  2. 网络的宽度

    • 定义:每一个网络层的通道数,以卷积网络层计算。

    • 例子:LeNet网络,C1(6),C3(16)。

    • 作用:宽度增加可以提高模型对特征的提取能力,但也可能导致计算量增加。

五、样本量过少的问题及解决方案

  1. 问题

    • 样本量极少:样本获取较难导致总体样本量过少,如工业产品、医疗等领域。

    • 影响:样本量过少可能导致模型过拟合,无法泛化到新的数据。

  2. 解决方案

    1. 迁移学习

      • 使用预训练模型:利用在大规模数据集(如ImageNet)上预训练的模型,加速模型收敛。

      • 优点:可以利用预训练模型的通用特征,减少对大量样本的依赖。

      • 缺点:需要找到与任务相关的预训练模型,且可能需要进一步微调。

    2. 数据增强

      • 有监督方法:平移、翻转、亮度、对比度、裁剪、缩放等。

        • 优点:简单易实现,可以有效增加样本的多样性。

        • 缺点:可能无法生成完全新的样本,对模型的泛化能力提升有限。

      • 无监督方法:通过GAN网络生成所需样本,然后再进行训练。

        • 优点:可以生成全新的样本,增加样本的多样性。

        • 缺点:GAN训练难度大,生成的样本可能质量不高。

相关推荐
shangjian00712 分钟前
AI大模型-机器学习-分类
人工智能·机器学习·分类
大厂技术总监下海12 分钟前
用户行为分析怎么做?ClickHouse + 嵌套数据结构,轻松处理复杂事件
大数据·数据结构·数据库
大厂技术总监下海18 分钟前
大数据生态的“主动脉”:RocketMQ 如何无缝桥接 Flink、Spark 与业务系统?
大数据·开源·rocketmq
2501_9336707925 分钟前
2026年中专大数据专业可考取的证书
大数据
oMcLin39 分钟前
如何在Ubuntu 22.04 LTS上优化PostgreSQL 14集群,提升大数据查询的响应速度与稳定性?
大数据·ubuntu·postgresql
代码游侠39 分钟前
学习笔记——HC-SR04 超声波测距传感器
开发语言·笔记·嵌入式硬件·学习
Lun3866buzha1 小时前
基于FCOS和HRNet的易拉罐缺陷检测与分类系统:实现工业质检自动化,提升检测精度与效率_1
分类·数据挖掘·自动化
信创天地1 小时前
核心系统去 “O” 攻坚:信创数据库迁移的双轨运行与数据一致性保障方案
java·大数据·数据库·金融·架构·政务
zhyf1191 小时前
Max395(ubuntu24.04)AMD显卡GLM-4.7-UD-IQ1-M量化模型部署手册
大数据·elasticsearch·搜索引擎
小北方城市网1 小时前
微服务接口设计实战指南:高可用、易维护的接口设计原则与规范
java·大数据·运维·python·微服务·fastapi·数据库架构