深度学习之图像分类笔记

哈基鑫2025-09-30 21:47

一、图像分类核心定义

图像分类是将不同图像划分到对应类别标签的任务，核心目标是实现最小分类误差，即让模型对图像类别的判断尽可能准确。

二、图像分类的三层境界

图像分类根据分类粒度和任务目标，可分为三个层次，难度与精细度逐层提升：

通用多类别图像分类面向通用性、差异明显的类别划分，典型案例为包含 10 类常见物体的分类任务，类别包括：airplane（飞机）、automobile（汽车）、bird（鸟类）、cat（猫）、deer（鹿）、dog（狗）、frog（青蛙）、horse（马）、ship（船）、truck（卡车）。
子类细粒度图像分类针对同一大类下的细分子类进行区分，需捕捉更细微的特征差异（例如：同属 "鸟类" 下的不同物种、同属 "汽车" 下的不同车型）。
实例级图片分类对同一物体的不同实例进行识别（例如：同一款手机的不同个体、同一人不同角度的照片），要求模型区分个体间的独特特征。

三、图像分类核心评估指标

评估指标用于衡量模型分类性能，核心指标围绕 "混淆矩阵" 展开，具体包括以下几类：

1. 混淆矩阵基础概念

混淆矩阵是评估二分类模型的基础工具，通过 4 个核心指标描述分类结果：

TP（True Positive，真正例）：将正类样本正确预测为正类的数量。
FP（False Positive，假正例）：将反类样本错误预测为正类的数量（误判）。
TN（True Negative，真反例）：将反类样本正确预测为反类的数量。
FN（False Negative，假反例）：将正类样本错误预测为反类的数量（漏判）。

2. 核心单指标

指标名称	定义	公式（基于二分类）	核心意义
精确率（Accuracy）	模型识别正确的样本数占总样本数的比例，是最常用的基础精度指标。	Accuracy = (TP + TN) / (TP + FP + TN + FN)	整体分类准确性
准确率（Precision）	模型预测为正类的样本中，真正为正类的比例（"查准"）。	Precision = TP / (TP + FP)	减少 "误判"，保证正类纯度
召回率（Recall）	模型正确识别的正类样本占所有真实正类样本的比例（"查全"）。	Recall = TP / (TP + FN)	减少 "漏判"，覆盖更多正类
F1-Score	精确率与召回率的调和平均数，平衡两者矛盾，避免单一指标偏差。	F1 = 2×(Precision×Recall) / (Precision + Recall)	综合衡量模型性能

3. P-R 曲线（精确率 - 召回率曲线）

核心特点：召回率增加时，精确率通常会下降（两者存在 trade-off）。
评价标准：曲线与坐标轴围成的面积越大，模型综合性能越好。
局限性：对正负样本不均衡的数据敏感，易出现偏差。

4. 多类别分类的评估（k 分类问题）

多类别混淆矩阵：为 k×k 矩阵，其中元素 Cij 表示 "第 i 类真实样本被预测为第 j 类" 的数量。
核心判断 ：
- 主对角线元素之和 = 正确分类的样本总数；
- 非主对角线元素之和 = 错误分类的样本总数；
- 主对角线元素值越大，模型对对应类别的分类准确率越高，整体性能越好。

四、深度学习模型基本概念（以卷积神经网络为例）

1. 网络的深度

定义：深度学习的核心属性，指模型中最长路径的卷积层 + 全连接层数量（仅统计有效计算层，不含池化层等非参数层）。
实例：LeNet 网络的深度为 5 层，具体构成：C1（卷积层 1）+ C3（卷积层 3）+ C5（卷积层 5）+ F6（全连接层 6）+ Output（输出层）。

2. 网络的宽度

定义：指网络中每一层的通道数，主要针对卷积层（通道数决定该层提取的特征维度）。
实例：LeNet 网络的宽度：C1 层通道数为 6，C3 层通道数为 16。

五、图像分类中的关键问题：样本量过少及解决方案

1. 样本量过少的原因

核心原因是样本获取难度大，典型场景包括：

工业产品：特殊工业部件、缺陷样本等，采集成本高、数量有限；
医疗领域：稀有病例图像、医学影像（如 CT、MRI）等，受伦理和病例数量限制。

2. 解决方案

方案 1：迁移学习

核心思路：利用 "预训练模型" 的已有特征提取能力，避免从零开始训练（减少对小样本的依赖）。
关键依据：ImageNet 数据集包含海量通用图像，基于该数据集预训练的模型已具备强大的通用特征提取能力，可加速目标任务的模型收敛，提升小样本场景下的性能。

方案 2：数据增强

通过人工手段扩充样本数量，分为有监督和无监督两类方法：

有监督方法：基于原始样本进行规则化变换（不改变样本类别标签），常见手段包括：平移、翻转（水平 / 垂直）、调整亮度 / 对比度、随机裁剪、缩放等；
无监督方法 ：通过生成模型创造新样本，典型技术为GAN（生成对抗网络），可生成与真实样本分布一致的新样本，补充训练数据。

上一篇：安妮的2025 Q3 Review

下一篇：P3.7计算机视觉

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06AI科技热点日报 | 2026年07月01日 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……