图像分类笔记

一、图像分类概述

  • 定义:将不同的图像划分到不同的类别标签,目标是实现最小的分类误差。

  • 应用:广泛应用于多个领域,如安防监控(人脸识别)、医疗影像诊断(疾病识别)、自动驾驶(交通标志识别)等。

二、图像分类的三层境界

  1. 通用的多类别图像分类

    • 识别图像属于多个大类中的哪一个,如动物、植物、交通工具等。

    • 难点在于类别多样,特征差异大,需要模型具备广泛的学习能力。

  2. 子类细粒度图像分类

    • 在大类的基础上进一步细分,如识别不同种类的花卉、不同型号的汽车等。

    • 难点在于子类之间的差异细微,对模型的细节识别能力要求高。

  3. 实例级图片分类

    • 不仅要识别类别,还要区分同一类别中的不同个体,如识别不同人的面部。

    • 难点在于需要模型对个体特征有极高的敏感度,且个体间差异可能非常小。

三、图像分类评估指标

  1. 混淆矩阵

    • TP(True positive, 真正例):将正类预测为正类的数量。

    • FP(False positive, 假正例):将反类预测为正类的数量。

    • TN(True negative, 真反例):将反类预测为反类的数量。

    • FN(False negative, 假反例):将正类预测为反类的数量。

  2. 精确率(Accuracy)

    • 定义:模型识别正确的个数 / 样本的总个数。

    • 优点:直观反映模型的整体性能。

    • 缺点:在类别不平衡时,可能无法准确反映模型对少数类的识别能力。

  3. 准确率(Precision)

    • 定义:在模型识别为正类的样本中,真正为正类的样本所占的比例。

    • 优点:反映模型对正类的识别准确性。

    • 缺点:只关注模型预测为正类的情况,不考虑实际为正类但被预测为反类的情况。

  4. 召回率(Recall)

    • 定义:模型正确识别出为正类的样本的数量占总的正类样本数量的比值。

    • 优点:反映模型对正类的识别完整性。

    • 缺点:只关注实际为正类的情况,不考虑模型预测为正类但实际为反类的情况。

  5. F1_Score

    • 定义:准确率和召回率的调和平均数。

    • 优点:综合考虑了准确率和召回率,适用于类别不平衡的情况。

    • 缺点:需要在准确率和召回率之间找到平衡。

  6. P-R曲线

    • 特点:

      • 召回率增加,精度下降。

      • 曲线和坐标轴面积越大,模型越好。

      • 对正负样本不均衡敏感。

  7. 多类别分类模型

    • 混淆矩阵为k*k的矩阵,元素Cij表示第i类样本被分类器判定为第j类的数量。

    • 主对角线的元素之和为正确分类的样本数,其余元素之和为错误分类的样本数。

    • 对角线的值越大,分类器准确率越高。

四、模型基本概念

  1. 网络的深度

    • 定义:深度学习最重要的属性,计算最长路径的卷积层+全连接层数量。

    • 例子:LeNet网络,C1+C3+C5+F6+Output共5层。

    • 作用:深度增加可以提高模型的表达能力,但也可能导致训练难度增加。

  2. 网络的宽度

    • 定义:每一个网络层的通道数,以卷积网络层计算。

    • 例子:LeNet网络,C1(6),C3(16)。

    • 作用:宽度增加可以提高模型对特征的提取能力,但也可能导致计算量增加。

五、样本量过少的问题及解决方案

  1. 问题

    • 样本量极少:样本获取较难导致总体样本量过少,如工业产品、医疗等领域。

    • 影响:样本量过少可能导致模型过拟合,无法泛化到新的数据。

  2. 解决方案

    1. 迁移学习

      • 使用预训练模型:利用在大规模数据集(如ImageNet)上预训练的模型,加速模型收敛。

      • 优点:可以利用预训练模型的通用特征,减少对大量样本的依赖。

      • 缺点:需要找到与任务相关的预训练模型,且可能需要进一步微调。

    2. 数据增强

      • 有监督方法:平移、翻转、亮度、对比度、裁剪、缩放等。

        • 优点:简单易实现,可以有效增加样本的多样性。

        • 缺点:可能无法生成完全新的样本,对模型的泛化能力提升有限。

      • 无监督方法:通过GAN网络生成所需样本,然后再进行训练。

        • 优点:可以生成全新的样本,增加样本的多样性。

        • 缺点:GAN训练难度大,生成的样本可能质量不高。

相关推荐
tingshuo291720 小时前
S001 【模板】从前缀函数到KMP应用 字符串匹配 字符串周期
笔记
字节跳动数据平台1 天前
代码量减少 70%、GPU 利用率达 95%:火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
得物技术1 天前
深入剖析Spark UI界面:参数与界面详解|得物技术
大数据·后端·spark
武子康1 天前
大数据-238 离线数仓 - 广告业务 Hive分析实战:ADS 点击率、购买率与 Top100 排名避坑
大数据·后端·apache hive
武子康2 天前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天2 天前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
武子康4 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
武子康5 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP6 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库6 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全