YOLOV8/11分割与分类输出参数说明

_假正经2026-03-28 8:37

YOLOV8/11 输出三个尺度的特征图

对于640x640图像输入：

对于640x640的图片输入，输出output0 $84,8400$ ，预测框的总数量是8400，每个预测框的维度是84(4+80),针对COCO数据集的80个类别而言

8400x84 = 80x80x84+40x40x84+20x20x84 = 80x80x(4+80)+40x40x(4+80)+20x20x(4+80)

其中4为预测框 cx,cy,w,h,代表预测框的中心点坐标与宽高；80为80个类别的置信度

输入图像大小不一样，输出的检测框数量不同

分割有两个输出output0与output1，对于640x640 的图像输入，output0为检测头的输出其维度1x116x8400，output1为分割头的输出，其维度为1x32x160x160

output0维度1x116x8400，代表输出的检测框数量为8400，每个预测框的维度为116(4+80+32)

其中4为预测框 cx,cy,w,h,代表预测框的中心点坐标与宽高；80为80个类别的置信度，32维向量为与当前预测框关联的分割mask系数

output1分割头的输出维度为1x32x160x160,代表32个尺寸为160x160的基础mask，这些基础mask所有检测框共享，每个检测框的32维mask系数与output1做矩阵乘法得到当前检测框的最终mask

具体实现：