在 YOLO 系列主导的实时目标检测领域,单 Backbone 的特征表达能力逐渐成为精度提升的核心瓶颈。今天我们详解一款双并行对称 Backbone + 极简同尺度融合的新型目标检测网络,结构简洁、精度提升明显,同时保持极致的推理效率,完全贴合原图架构。
代码获取:https://github.com/tgf123/YOLOv8_improve
视频讲解:YOLO双backbone,双骨干并行,极简融合:一款高效双 Backbone 目标检测网络详解(单模态增强创新点,双模态检测)_哔哩哔哩_bilibili
一、网络整体架构概览
该网络延续了目标检测经典的「Backbone-Neck-Head」三段式设计,但核心创新在于双并行对称 Backbone + 极简同尺度融合 Neck,整体架构如下:
-
双并行 Backbone:上下两个结构完全一致的骨干网络,对 640×640 输入图像并行提取特征,各输出 3 个有效检测尺度(80×80、40×40、20×20);
-
极简 Neck :仅通过
Concat完成同尺度跨骨干特征融合,无任何跨尺度 FPN/PAN 结构,极致轻量化; -
多尺度 Head:对融合后的 3 个尺度特征,分别进行目标检测,输出最终结果。
架构核心设计逻辑
传统单 Backbone 网络受限于单次特征提取,无法同时兼顾「细粒度纹理特征」与「高层语义特征」的学习。而双并行 Backbone 通过两次独立特征提取 + 同尺度融合,让两个骨干学习互补的特征表示,再通过简单的 Concat 完成融合,在几乎不增加推理延迟的前提下,大幅提升特征表达能力,完美平衡精度与速度。

二、核心模块
1. 双 Backbone 的设计优势
-
特征互补性:两个并行 Backbone 在训练中会自动学习不同的特征偏好(如一个侧重边缘纹理、一个侧重语义上下文),通过后续融合实现特征互补,解决单 Backbone 特征表达单一的问题;
-
结构对称性:两个骨干结构完全一致,训练稳定、易于部署,可通过 GPU 并行计算实现推理速度的线性优化,延迟几乎与单 Backbone 持平;
-
尺度对齐性:两个骨干输出的特征尺度完全对应,为后续极简融合提供了基础。
2. 极简 Neck:同尺度跨骨干特征融合
不同于传统 YOLO 的 FPN+PAN 跨尺度融合,该网络的 Neck 设计极致简洁,核心目标仅为「双骨干同尺度特征融合」:
-
融合逻辑 :对上下两个 Backbone 输出的相同尺寸 的特征图,分别通过
Concat(橙色模块)在通道维度进行拼接:-
80×80 尺度:上 Backbone 的 80×80 特征 + 下 Backbone 的 80×80 特征 → Concat 融合
-
40×40 尺度:上 Backbone 的 40×40 特征 + 下 Backbone 的 40×40 特征 → Concat 融合
-
20×20 尺度:上 Backbone 的 20×20 特征 + 下 Backbone 的 20×20 特征 → Concat 融合
-
-
无跨尺度操作:整个 Neck 层没有任何上采样、下采样、跨尺度特征传递操作,也没有额外的特征增强模块,最大程度降低计算开销;
-
融合优势:仅通过简单的 Concat 操作,就实现了双骨干特征的互补增强,在几乎不增加推理延迟的前提下,大幅提升每个尺度的特征质量,尤其增强小目标检测精度。
3. 多尺度 Head:适配融合特征的检测头
Head 层采用 YOLO 系列经典的多尺度检测头设计,对 Neck 输出的 3 个融合后的尺度特征,分别进行目标检测:
-
80×80 尺度:检测小目标(如远距离行人、非机动车、微小缺陷);
-
40×40 尺度:检测中目标(如常规车辆、家具、中等缺陷);
-
20×20 尺度:检测大目标(如卡车、大型建筑、大型工件);
三、应用的领域
多模态检测:适配图像、红外、深度等多模态输入,双 Backbone 分别处理不同模态,实现多模态特征融合。
**单模态检测:**两个backbone提取不同的特征,进一步提升特征互补性。