主流深度学习目标检测模型性能对比表

测试基准 ：基于 COCO 2017 数据集 ，硬件参考 NVIDIA Tesla V100 GPU，输入尺寸默认模型标准配置（如 640×640），指标仅供选型参考（实际性能受骨干网络、训练策略、硬件影响）。

模型类别	模型名称	骨干网络	mAP@0.5:0.95（精度）	FPS（速度）	参数量（M）	核心特点	适用场景
二阶段检测器	Faster R-CNN	ResNet50+FPN	37.4	~5	41	精度高，锚框+RPN经典架构，端到端训练	高精度需求场景（如医疗影像、卫星图像检测）
	Mask R-CNN（检测+分割）	ResNet50+FPN	39.8（检测）	~3	45	扩展实例分割，RoIAlign优化边框回归	检测+分割联合任务（如工业质检）
一阶段检测器	YOLOv3	Darknet53	33.0	45	61	多尺度检测，锚框机制成熟，部署简单	中等精度+实时场景（如视频监控）
	YOLOv5s（轻量版）	CSPDarknet53	36.7	140	7.2	工程化优化极致，训练速度快，社区生态丰富	边缘端实时检测（如无人机、机器人视觉）
	YOLOv8s	CSPDarknet53	44.9	110	11	Anchor-Free，支持检测/分类/分割多任务	通用实时检测，兼顾精度与速度
	SSD300	VGG16	28.8	58	35	多特征图检测，早期实时模型代表	轻量级实时场景（如移动端简单目标检测）
	RetinaNet	ResNet50+FPN	39.1	8	38	Focal Loss解决样本不平衡，精度媲美二阶段	复杂场景检测（如密集目标、小目标）
无锚框检测器	CenterNet	Hourglass-104	41.7	142	130	检测中心点+宽高，无锚框设计，小目标效果好	小目标密集场景（如行人检测、文本检测）
	CornerNet	Hourglass-104	40.5	29	150	检测目标角点配对，对异形目标适应性强	不规则目标检测（如工业零件、农产品检测）
Transformer基检测器	DETR	ResNet50	42.0	~2	41	纯Transformer架构，端到端无NMS，全局注意力	复杂长距离依赖场景（如遮挡目标检测）
	YOLOv11	CSPDarknet53+Transformer	46.8	95	13	融合CNN+Transformer，兼顾局部/全局特征	高精度实时检测（如自动驾驶感知）
轻量化检测器	MobileNet-SSD	MobileNetV2	22.2	120	4.4	深度可分离卷积，参数量极小	移动端/嵌入式设备（如手机拍照识别）
	Tiny-YOLOv5	CSPDarknet-Nano	28.0	240	1.9	极致轻量化，牺牲少量精度换取速度	超低算力设备（如单片机、智能摄像头）

关键指标说明

mAP@0.5:0.95：COCO 标准精度指标，覆盖 IoU 从 0.5 到 0.95 的阈值，数值越高精度越好。
FPS：每秒处理图像帧数，数值越高速度越快，实时场景一般要求 FPS ≥ 30。
参数量：模型参数总量，越小越适合边缘端部署。