检测+跟踪一体化！4.39M参数、8.3W功耗，轻量化模型让无人机在露天矿实时巡检

导读

露天矿场景下的无人机巡检有一个独特的挑战：不仅要检测到矿卡、挖掘机这些设备，还要在复杂动态场景中持续跟踪它们------设备密集、遮挡频繁、远距离目标小。传统做法要么用重量级模型但无人机算力不够，要么用轻量模型但小目标漏检严重。

辽宁工程技术大学团队提出了一套轻量化检测+跟踪一体化方案：在YOLOv8s基础上引入可变形卷积、渐进式特征金字塔和轻量化检测头，再用LAMP剪枝将参数压缩到 4.39M（原模型的39.4%），最终在自建矿山数据集上取得 mAP50 0.868，推理仅 196ms，功耗仅 8.3W。跟踪部分改进ByteTrack算法，引入空间-外观相似性矩阵，将 MOTA提升到75.8%，ID切换从68次降到47次。整套系统可部署在Jetson Xavier NX上，适配无人机实际算力约束。

论文信息

标题: Lightweight target detection and multi target tracking for UAV inspection in open pit mines
作者: Guangwei Liu, Linbo Zhang（通讯作者）, Jian Lei, Senlin Chai, Weijun Zhu
机构: 辽宁工程技术大学矿业学院 / 沈阳工学院经济管理学院
期刊: Scientific Reports, Volume 16, Article 8084 (2026)
DOI: 10.1038/s41598-026-38676-4

一、露天矿巡检为什么需要"检测+跟踪"？

露天矿的无人机巡检面临三个层面的挑战：

**算力与精度的矛盾。**无人机搭载的边缘计算设备（如Jetson Xavier NX）算力有限，但矿区复杂场景需要高精度的小目标检测能力。

**小目标与遮挡并存。**远距离设备在画面中很小，设备之间又经常相互遮挡，传统检测模型在这两个场景下都容易失效。

**单帧检测不够用。**矿区需要持续追踪设备的运动轨迹和作业状态（如矿卡是否载货），仅靠逐帧检测无法维持目标身份的连续性------相似外观的矿卡容易发生ID切换。

论文的解决思路是：先用轻量化检测模型解决"看到"的问题，再用改进的跟踪算法解决"跟住"的问题，两者协同部署在无人机边缘设备上。

二、检测模型：三项结构改进将YOLOv8s参数从11.13M压到4.39M

基座模型选择 YOLOv8s，论文给出的理由是：结构模块化便于针对性修改、参数量适中有优化空间、工业部署成熟度高。

图片来源于原论文

三项结构改进（LAMP剪枝在第三节单独介绍）：

2.1 骨干网络：C2f-DCN（可变形卷积DCNv2）

将C2f模块中的标准卷积替换为 DCNv2可变形卷积。DCNv2在每个采样点增加了可学习的偏移量和调制权重，使卷积核能自适应地变形以匹配目标的不规则轮廓。矿区设备受作业和环境影响形态多变，可变形卷积比固定形状的标准卷积更适合捕捉这类目标。

2.2 颈部网络：AFPN（渐进式特征金字塔）

用 **AFPN（Asymptotic Feature Pyramid Network）**替换原始的PANet。AFPN的核心思路是先融合语义差距小的相邻层级特征，再逐步引入高层级特征，避免PANet直接融合语义差距大的非相邻层级造成的信息冲突。融合时使用softmax加权的自适应空间融合，权重通过卷积层学习。

2.3 检测头：LSDECD-Head（轻量化空间双增强交叉解耦头）

设计了一个 轻量化共享细节增强卷积检测头，接收4个层级的特征图（P2到P5），通过1×1卷积调整通道数，再经两个3×3共享细节增强卷积模块聚合特征，最后分别输出分类和回归结果。使用可变形卷积实现多层级特征的自适应聚合，并加入空间感知注意力增强对小目标的关注。

2.4 损失函数：Focaler-GIoU

将CIoU损失替换为 Focaler-GIoU，结合Focaler-IoU的动态样本加权和GIoU的几何惩罚。Focaler-IoU通过阈值参数d和u将样本分为三档，对中等难度样本施加更大权重，迫使模型在困难/遮挡目标上投入更多学习资源。

消融实验结果

配置	mAP50	参数量/M	FLOPs/G	推理时间/ms
YOLOv8s基线	0.557	11.13	28.5	347
+C2f-DCN+AFPN	0.795	4.84	17.9	291
+LSDECD-Head	0.823	4.39	14.7	232
+Focaler-GIoU	0.868	4.39	14.7	196

几个关键发现：

C2f-DCN+AFPN是最大贡献因素：mAP50从0.557提升到0.795（+23.8个百分点），同时参数量从11.13M降到4.84M（减少56.5%）
LSDECD-Head在不增加参数的情况下进一步将mAP50提升到0.823，FLOPs从17.9G降到14.7G
Focaler-GIoU将mAP50推到0.868，推理时间从232ms降到196ms

三、LAMP剪枝与多目标跟踪

3.1 LAMP剪枝：30%剪枝率为最优平衡点

使用 **LAMP（Layer-wise Adaptive Magnitude Pruning）**对模型进行全局剪枝，测试了0%-80%共9档剪枝率。需要说明的是，剪枝实验的起点模型（未剪枝参数量5.62M）与消融实验的最终模型（4.39M）参数量不同，这是因为剪枝实验基于包含完整结构改进但未经剪枝优化的版本。

剪枝率	mAP50	参数量/M	FLOPs/G	推理时间/ms
0%	0.857	5.62	20.2	305
10%	0.860	5.13	18.5	274
20%	0.870	4.82	16.2	225
30%	0.868	4.39	14.7	196
40%	0.862	4.13	10.6	182
50%	0.795	3.95	9.4	170
60%	0.642	3.52	9.3	158
70%	0.592	3.09	8.5	145
80%	0.553	2.66	7.6	130

30%剪枝率下mAP50为0.868，与20%剪枝率的0.870几乎持平，但参数和推理时间更优。超过40%后性能开始明显下降，50%时mAP50骤降到0.795，60%以上则降至0.642以下。

图片来源于原论文

3.2 改进ByteTrack：空间-外观相似性矩阵

原始ByteTrack仅依赖IoU进行目标关联，在矿区场景中容易因相似外观的矿卡造成ID切换。论文提出两项改进：

空间-外观相似性矩阵（ASM）：融合目标的空间位置、运动状态（速度/加速度）、作业状态（如载货/空载）和外观特征（颜色差异）进行综合匹配，权重系数通过敏感性分析确定（空间权重ε=0.6，外观权重1-ε=0.4）。

加速度校正函数：在轨迹预测中引入加速度修正项，动态调整校正系数，提升急停/急转场景下的预测准确性。

跟踪消融实验

跟踪评估基于 10段设备操作视频（共120分钟），在Jetson Xavier NX上测试。

配置	MOTA/%	MOTP/%	IDF1/%	ID切换	单帧跟踪/ms	FPS
ByteTrack基线	72.2	66.2	72.6	68	45	22.22
+ASM矩阵	73.5	65.8	73.2	59	38	26.32
+校正函数	73.0	65.5	72.9	61	39	25.64
+两者结合	75.8	67.2	74.4	47	32	31.25

两项改进叠加后：MOTA从72.2%提升到75.8%，ID切换从68次降到47次（-30.9%），单帧跟踪时间从45ms降到32ms。

与最新跟踪方法对比

方法	MOTA/%	MOTP/%	IDF1/%	ID切换
BoT-SORT	71.5	65.3	70.2	72
StrongSORT	73.1	66.1	72.3	63
MVTL-UAV	74.2	65.9	73.5	58
ByteTrack	72.2	66.2	72.6	68
本文方法	75.8	67.2	74.4	47

本文方法在MOTA、MOTP、IDF1三项指标上均为最高，ID切换数量最少（47次，比次优MVTL-UAV的58次少11次）。

四、与主流检测模型的全面对比

自建矿山数据集对比

数据集包含 6000张图像（原始分辨率5472×3648，训练时裁剪缩放到640×640），目标类别包括矿卡（约65%）、挖掘机、非协作目标（未授权车辆/人员）等。

以下所有推理和功耗测试均在 Jetson Xavier NX（21 TOPS, 8GB）上进行。

方法	mAP50	参数/M	FLOPs/G	模型大小/MB	推理/ms	CPU占用/%	功耗/W
YOLOv8s	0.553	11.13	28.5	21.46	364.23	38.5±2.3	12.8±1.1
SSD	0.724	8.94	15.7	5.94	223.77	42.1±1.8	10.5±0.9
YOLOv9s	0.584	12.13	18.7	23.25	425.36	45.7±2.1	14.2±1.3
YOLOv10s	0.564	10.57	22.9	19.57	353.24	40.3±1.9	13.1±1.0
YOLOv11s	0.573	9.1	23.8	17.65	323.41	39.8±2.0	12.5±0.8
Faster RCNN	0.582	7.9	11.8	8.27	287.4	51.2±2.5	15.3±1.2
本文方法	0.868	4.39	14.7	4.76	196	28.6±1.5	8.3±0.7

本文方法在mAP50、参数量、模型大小、推理速度、CPU占用率和功耗六项指标上均为最优（FLOPs方面Faster RCNN的11.8G低于本文的14.7G）：

mAP50比次优SSD高 14.4个百分点 ，比YOLOv8s基线高 31.5个百分点
参数量仅为YOLOv8s的 39.4%
功耗仅 8.3W，比YOLOv8s低35.2%
CPU占用率 28.6%，为所有方法中最低

VisDrone2019跨数据集验证

方法	mAP50	推理/ms
YOLOv8s	0.523	324.23
SSD	0.672	203.77
本文方法	0.812	176.24

在未见过的VisDrone2019数据集上，mAP50仍达0.812，验证了模型的泛化能力。

图片来源于原论文

五、总结与思考

这篇工作的核心亮点在于 检测与跟踪的一体化设计，以及对无人机实际部署约束的充分考量（算力、功耗、模型大小）。

几点值得关注的发现：

**C2f-DCN+AFPN的组合效果远超预期。**消融实验中，仅这一项改进就同时提升了mAP50（+23.8个百分点）并大幅压缩了参数量（-56.5%）。这说明在特定场景中，选择合适的特征提取策略（可变形卷积+渐进融合）比堆叠更多模块更有效。

**功耗和CPU占用率是被忽视的指标。**大多数检测论文只报告mAP和FPS，但对于无人机部署，功耗（8.3W vs 12.8W）和CPU占用率（28.6% vs 38.5%）同样关键------它们直接决定了无人机的续航时间和多任务并行能力。这篇论文将这些指标纳入对比是一个值得推广的做法。

**跟踪的实用价值。**在矿区场景中，跟踪的意义不仅是维持目标身份连续性，更重要的是结合"作业状态"（载货/空载）进行匹配。ASM矩阵中引入运营状态量化（载货=1、空载=0）是一个贴合场景的设计。

局限性方面，论文的检测部分推理速度为196ms（约5 FPS），对于快速移动场景可能不够流畅。此外，自建数据集中矿卡占65%，类别分布不均衡可能对其他目标的检测精度产生影响。论文仅公开了跨数据集验证所用的VisDrone2019数据集链接，自建矿山数据集未公开，这对后续工作的复现和扩展构成一定限制。