VOC/COCO风格评估差异对照表

AABB 目标检测 里最常见的 VOC-styleCOCO-style 评估来对照;前者更偏经典/宽松,后者更严格、维度更多。([BrainChip Data][1])

对比维度 VOC 风格 COCO 风格
主指标 以每类 AP 和所有类别平均后的 mAP 为核心;经典 VOC 检测评估围绕 PR 曲线和 AP 展开。([BrainChip Data][1]) 主指标是 AP@[0.50:0.95] ,同时还会单独给出 AP50AP75。COCO 官方评估代码的 summary 默认就这样输出。([GitHub][2])
IoU 阈值 经典 VOC 检测通常按 IoU=0.5 判定 TP。很多人说的 "VOC mAP" 基本就是这个口径。([GitHub][3]) COCO 会在 0.50 到 0.95 之间每隔 0.05 取一个 IoU,共 10 个阈值,再做平均。([GitHub][2])
AP 计算方式 常见 VOC-style 有两种:VOC07 11-point AP ,以及后续常见实现里的 PR 曲线面积积分 。Detectron2 的 VOC evaluator 就明确区分了 use_07_metric=True 的 11-point 和 False 的积分式 AP。([GitHub][3]) COCO 使用 101 个 recall 采样点(0, 0.01, ..., 1.00),并在多 IoU 阈值上汇总。([GitHub][2])
召回采样密度 VOC07 是 11 个 recall 点(0, 0.1, ..., 1.0)的插值 AP。([Informatics Homepages][4]) COCO 是 101 个 recall 点(步长 0.01),更细。([GitHub][2])
输出指标丰富度 通常重点就是 AP / mAP。([BrainChip Data][1]) 除了 AP / AP50 / AP75 ,还会输出 AR,以及按目标尺寸分开的指标。([GitHub][2])
尺度拆分 VOC 主评估里没有 COCO 那种标准化的 small / medium / large 三档汇报。 COCO 默认拆成 small / medium / large ;面积范围在官方代码里定义为 small: (02!\sim322),medium: (322!\sim962),large: (96^2!\sim\infty)。([GitHub][2])
maxDets 限制 VOC 风格里一般不是核心汇报维度 COCO 默认会用 maxDets = [1, 10, 100] ,并据此给出 AR@1 / AR@10 / AR@100 等结果。([GitHub][2])
忽略样本机制 VOC 有 difficult 标注;这类目标在评估中会被丢弃,检测到它们通常也不受罚。([Informatics Homepages][4]) COCO 有 ignore / iscrowd 等机制;评估代码会把这类 GT 设为 ignore,并在累计 TP/FP 时单独处理。([GitHub][2])
严格程度 更宽松,特别是只看 IoU=0.5 时,对框定位误差容忍更高。 更严格,因为既看 AP50 ,也看 AP75 ,还把 0.50:0.95 全部平均进去。([GitHub][2])
更适合什么场景 更适合快速比较"有没有检出来"、或与老论文/老项目保持一致。 更适合做现代 benchmark、真实部署前的综合比较,因为它对定位精度、小目标和候选数约束都更敏感。这个判断是基于其更严格、更细粒度的官方评估设置。([GitHub][2])

最容易混淆的 4 点

1)"VOC mAP" 往往就是 mAP@0.5,不等于 COCO 的 AP。

COCO 默认的 AP 是把 0.50 到 0.95 的多个 IoU 阈值平均后的结果,所以数值通常会比 VOC 风格更低。([GitHub][2])

2)"VOC-style" 里还分 VOC07 和非 VOC07。

VOC07 常指 11-point AP;很多后续实现会改成对 PR 曲线做面积积分。看论文或代码时,最好确认有没有 use_07_metric 之类的开关。([GitHub][3])

3)同一个数据集,也可能被按不同风格评估。

例如某些框架对 VOC 数据集也能输出 AP / AP50 / AP75,因为它们实现了"VOC 数据集 + 多 IoU 阈值统计"的 evaluator;Detectron2 的 VOC evaluator 就是按 0.50:0.95 循环阈值汇总出 AP/AP50/AP75。([GitHub][3])

4)工程里不要只看 AP50。

AP50 高只能说明"差不多框住了",不代表定位很准;AP75 和 COCO AP 更能反映框质量。([GitHub][2])

笔记

  • VOC 风格mAP@0.5,偏经典、偏宽松。([GitHub][3])
  • COCO 风格AP@[0.5:0.95] + AP50 + AP75 + APs/m/l + AR,偏现代、偏严格。([GitHub][2])

指标命名速查表

常见写法 通常表示什么 IoU 阈值 AP 计算方式 你该怎么理解
VOC07 Pascal VOC 2007 风格 AP 0.5 11-point interpolation 最经典、最宽松的 VOC 口径。([Informatics Homepages][4])
VOC2007 mAP 所有类别 AP 的平均 0.5 11-point 和上面基本同义,只是强调是 mAP。([Informatics Homepages][4])
VOC2010 / VOC2011 / VOC2012 风格 Pascal VOC 后期常用 AP 0.5 all-points / integral AP 2010 起官方说明 AP 改成 "all data points";很多人把这口径俗称成 "VOC2012"。([Oxford Robots][5])
VOC2012 mAP 社区常见说法 0.5 通常指 all-points AP 不是一个像 COCO 那样特别标准化的单独"官方简称",更像工程圈简写。这个判断是根据 VOC 官方对 2010 起 AP 规则的说明,以及常见实现只区分 use_07_metric true/false 推出来的。([Oxford Robots][5])
mAP@0.5 各类 AP 在 IoU=0.5 下求平均 0.5 取决于 evaluator 只写 mAP@0.5 还不够,最好再说明是 VOC07 还是 all-points。([GitHub][3])
AP50 单个总指标名 0.5 常见于 COCO 输出 在 COCO/Detectron2 输出里,AP50 是标准字段。([GitHub][3])
AP75 单个总指标名 0.75 常见于 COCO 输出 比 AP50 更严格,更能看框是否贴得准。([GitHub][3])
AP(COCO 默认) AP@[0.50:0.95] 0.50:0.95,步长 0.05 101-point recall sampling 现代论文里只写 AP,大概率默认是 COCO AP。([GitHub][2])
AP@[.5:.95] / AP@[0.50:0.95] COCO 主指标 0.50 到 0.95 101 recall points 和上面的 AP 通常同义。([GitHub][2])
APs / APm / APl COCO 小/中/大目标 AP 多 IoU COCO 方式 用于分析不同尺寸目标性能。([GitHub][2])
AR@1 / AR@10 / AR@100 COCO 平均召回 多 IoU COCO 方式 maxDets=[1,10,100] 对应。([GitHub][2])

参考链接

1\]: https://data.brainchip.com/dataset-mirror/voc/VOC2007_doc.pdf "voc.dvi" \[2\]: https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocotools/cocoeval.py "cocoapi/PythonAPI/pycocotools/cocoeval.py at master · cocodataset/cocoapi · GitHub" \[3\]: https://github.com/facebookresearch/detectron2/blob/main/detectron2/evaluation/pascal_voc_evaluation.py "detectron2/detectron2/evaluation/pascal_voc_evaluation.py at main · facebookresearch/detectron2 · GitHub" \[4\]: https://homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf "ijcv27.uk.dvi" \[5\]: https://www.robots.ox.ac.uk/\~vgg/projects/pascal/VOC/voc2010/index.html?utm_source=chatgpt.com "Visual Object Classes Challenge 2010 (VOC2010)"

相关推荐
AI机器学习算法3 小时前
深度学习模型演进:6个里程碑式CNN架构
人工智能·深度学习·cnn·大模型·ai学习路线
Ztopcloud极拓云视角3 小时前
从 OpenRouter 数据看中美 AI 调用量反转:统计口径、模型路由与多云应对方案
人工智能·阿里云·大模型·token·中美ai
AI医影跨模态组学3 小时前
如何将深度学习MTSR与膀胱癌ITGB8/TGF-β/WNT机制建立关联,并进一步解释其与患者预后及肿瘤侵袭、免疫抑制的生物学联系
人工智能·深度学习·论文·医学影像
搬砖的前端3 小时前
AI编辑器开源主模型搭配本地模型辅助对标GPT5.2/GPT5.4/Claude4.6(前端开发专属)
人工智能·开源·claude·mcp·trae·qwen3.6·ops4.6
Python私教4 小时前
Hermes Agent 安全加固与生态扩展:2026-04-23 更新解析
人工智能
饼干哥哥4 小时前
Kimi K2.6 干成了Claude Design国产版,一句话生成电影级的动态品牌网站
人工智能
肖有米XTKF86464 小时前
带货者精品优选模式系统的平台解析
人工智能·信息可视化·团队开发·csdn开发云
天天进步20154 小时前
打破沙盒限制:OpenWork 如何通过权限模型实现安全的系统级调用?
人工智能·安全
xcbrand4 小时前
政府事业机构品牌策划公司找哪家
大数据·人工智能·python
骥龙4 小时前
第十篇:合规与未来展望——构建AI智能体安全标准
人工智能·安全