昇思25天学习打卡营第8天 |昇思MindSpore SSD 目标检测算法学习与总结

一、引言

SSD（Single Shot MultiBox Detector）是 Wei Liu 等人在 ECCV 2016 上提出的一种目标检测算法，具有较高的检测精度和速度。

二、算法概述

主流算法类型：
- Two-stage 方法：如 RCNN 系列，先产生候选框，再分类和回归。
- One-stage 方法：如 YOLO 和 SSD，直接通过主干网络给出类别位置信息，无需区域生成。
模型结构：
- 以 VGG16 为基础模型，新增卷积层以获取更多特征图用于检测。
- 利用多尺度的特征图进行检测，浅层检测小目标，深层检测大目标。
模型特点：
- 多尺度检测：使用 6 种不同尺寸的特征图，使检测更充分，能检测出小目标。
- 采用卷积进行检测：直接采用卷积对不同特征图提取检测结果。
- 预设 anchor：采用预设边界框，在其指导下微调预测框的尺寸。

三、环境准备与数据处理

环境准备：确保本地安装了 mindspore、download、pycocotools、opencv-python。
数据准备与处理：
- 数据集为 COCO 2017，将其转换为 MindRecord 格式以减少磁盘和网络开销。
- 为数据处理定义输入，包括 COCO 根目录、标注 JSON 文件、训练类别等。
数据采样：
- 模型对每个训练图像随机采样，包括使用整个原始输入图像、采样特定区域等。
- 定义随机采样函数，如 random_sample_crop，进行图像和框的随机裁剪。
数据集创建：
- 使用 create_ssd_dataset 函数创建 SSD 数据集，包括数据解码、转换、增强等操作，并进行批量处理。

四、模型构建

五、损失函数

目标函数包括预选框与目标类别的置信度误差（confidence loss）和位置误差（location loss），位置损失采用 Smooth L1 Loss，置信度损失采用多类置信度上的 softmax 损失。

六、评估指标与训练过程

评估指标：
- 在 SSD 中，训练无需非极大值抑制（NMS），检测时需用 NMS 过滤重叠预测框。
- 评估指标包括平均精度（AP）和平均召回率（AR），AP 反映预测结果错误率，AR 反映漏检率。
训练过程：
- 先验框匹配：确定训练图片中 ground truth 与先验框的匹配，采用最大 IOU 和阈值原则，进行正负样本划分，并采用 hard negative mining 平衡样本。
- 损失函数：使用位置和置信度损失的加权和。
- 数据增强：使用定义好的数据增强方式。
模型训练设置 epoch 次数为 60，batch_size 为 5，图像尺寸为 300×300，使用 Momentum 优化器，初始学习率为 0.001，使用回调函数监控训练过程，每 10 个 epoch 保存一次模型。

七、评估

自定义 eval_net 类评估训练好的模型，计算不同设置下的 AP 和 AR，使用 COCOMetrics 类计算 mAP。

八、总结

SSD 目标检测算法在精度和速度上取得了较好的平衡，通过多尺度检测、卷积检测和预设 anchor 等策略提高了检测性能。但在实际应用中，仍需根据具体场景和需求进行调整和优化。

昇思25天学习打卡营第8天 |昇思MindSpore SSD 目标检测算法 学习与总结