简明 | Yolo-v3结构理解摘要

F_D_Z2025-12-12 21:25

整体结构

网络主要包括两部分，一个部分是主干网络Darknet-53，一个部分使用特征金字塔(FPN)融合、加强特征提取并利用卷积进行预测。

DBL，即Darknetconv2d_BN_Leaky，就是conv+BN（Batch Normalization）+Leaky relu，三者共同构成组件。除最后一层卷积层外，BN和leaky relu与卷积层完整绑定。

Res-n，即残差模块，n表示这个Res-block里含有多少个Res-unit。yolo-v3首次借鉴ResNet的残差结构，让网络更深，例如从v2的darknet-19到v3的darknet-53。http://t.csdnimg.cn/swIL4

Res-u，即残差单元，含有多个DBL，残差模块中含有一个或多个残差单元。

concat，即拼接层，PyTorch中就是张量拼接，将Darknet中间层和后面的某一层的上采样进行拼接。拼接的操作和残差层add的操作是不一样的，拼接会扩充张量的维度，而add只是直接相加不会导致张量维度的改变。

上采样层，放大图片和增加图片的分辨率，将提取到的Feature Map进行放大，从而以更高的分辨率进行显示图像。这里的图像放大，不是下采样的逆操作，通常通过双线性插值或转置卷积实现。