YOLOV8/11分割与分类输出参数说明

YOLOV8/11 输出三个尺度的特征图

对于640x640图像输入:

  1. 80x80 检测小目标
  2. 40x40 检测中目标
  3. 20x20 检测大目标

检测输出说明

对于640x640的图片输入,输出output0[84,8400],预测框的总数量是8400,每个预测框的维度是84(4+80),针对COCO数据集的80个类别而言

8400x84 = 80x80x84+40x40x84+20x20x84 = 80x80x(4+80)+40x40x(4+80)+20x20x(4+80)

其中4为预测框 cx,cy,w,h,代表预测框的中心点坐标与宽高;80为80个类别的置信度

输入图像大小不一样,输出的检测框数量不同

分割输出说明

分割有两个输出output0与output1,对于640x640 的图像输入,output0为检测头的输出其维度1x116x8400,output1为分割头的输出,其维度为1x32x160x160

output0维度1x116x8400,代表输出的检测框数量为8400,每个预测框的维度为116(4+80+32)

其中4为预测框 cx,cy,w,h,代表预测框的中心点坐标与宽高;80为80个类别的置信度,32维向量为与当前预测框关联的分割mask系数

output1分割头的输出维度为1x32x160x160,代表32个尺寸为160x160的基础mask,这些基础mask所有检测框共享,每个检测框的32维mask系数与output1做矩阵乘法得到当前检测框的最终mask

具体实现:

  1. Mask 系数(n×32) × 模型输出原型output1(32×160×160),n为筛选后预测框的数量
  2. 经过 sigmoid 激活
  3. 得到 n×160×160 的原始 Mask
  4. 把框从 640×640 → 缩放到 160×160,用于裁剪 Mask
  5. 把检测框以外的 Mask 全部设为 0
  6. 只保留框内的物体区域
  7. 把 160×160 中多余的灰色区域切掉(对于输入letterbox),得到有效小图
  8. 双线性插值缩放,把 Mask 缩放到 原图分辨率(如 1920×1080)
相关推荐
Raink老师8 分钟前
【AI面试临阵磨枪】详细解释 Transformer 架构的核心组件与工作流程。
人工智能·深度学习·transformer·ai 面试·ai 应用开发
qcx2320 分钟前
【AI Agent实战】OpenClaw 安全加固完全指南:安全攻击手段与五步防护实践(2026最新)
人工智能·安全
码农小白AI1 小时前
AI报告审核进入技术驱动时代:IACheck如何从规则引擎走向深度学习,构建检测报告审核“技术矩阵”
人工智能·深度学习
song150265372981 小时前
视觉检测设备:自动识别缺陷、尺寸、瑕疵、装配错误,一键全检
人工智能·计算机视觉·视觉检测
智能化咨询1 小时前
(163页PPT)某著名企业K3生产制造售前营销指导方案P164(附下载方式)
大数据·人工智能
Zzj_tju1 小时前
大语言模型技术指南:SFT、RLHF、DPO 怎么串起来?对齐训练与关键参数详解
人工智能·深度学习·语言模型
金智维科技官方1 小时前
RPA技术赋能电信运营商话单稽核:金智维如何驱动高精度自动化转型
人工智能·自动化·数字化·rpa·智能体·电信
2501_948114242 小时前
2026模型能力分化加剧:多模型聚合架构的技术解析与工程落地思考
人工智能·ai·chatgpt·架构
新知图书2 小时前
LangGraph中的记忆存储
人工智能·langgraph·智能体设计·多智能体设计
QQ676580082 小时前
基于yolo26算法的玉米卷叶心识别 智慧农业玉米病虫害农药丢撒识别 玉米卷心识别 玉米叶心图像识别 农作物识别第10410期
yolo·玉米卷叶心·玉米病虫害农药丢撒·玉米卷心识别·玉米叶心·农作物识别