检测+跟踪一体化!4.39M参数、8.3W功耗,轻量化模型让无人机在露天矿实时巡检

导读

露天矿场景下的无人机巡检有一个独特的挑战:不仅要检测到矿卡、挖掘机这些设备,还要在复杂动态场景中持续跟踪它们------设备密集、遮挡频繁、远距离目标小。传统做法要么用重量级模型但无人机算力不够,要么用轻量模型但小目标漏检严重。

辽宁工程技术大学团队提出了一套轻量化检测+跟踪一体化方案:在YOLOv8s基础上引入可变形卷积、渐进式特征金字塔和轻量化检测头,再用LAMP剪枝将参数压缩到 4.39M(原模型的39.4%),最终在自建矿山数据集上取得 mAP50 0.868,推理仅 196ms,功耗仅 8.3W。跟踪部分改进ByteTrack算法,引入空间-外观相似性矩阵,将 MOTA提升到75.8%,ID切换从68次降到47次。整套系统可部署在Jetson Xavier NX上,适配无人机实际算力约束。


论文信息

  • 标题: Lightweight target detection and multi target tracking for UAV inspection in open pit mines

  • 作者: Guangwei Liu, Linbo Zhang(通讯作者), Jian Lei, Senlin Chai, Weijun Zhu

  • 机构: 辽宁工程技术大学矿业学院 / 沈阳工学院经济管理学院

  • 期刊: Scientific Reports, Volume 16, Article 8084 (2026)

  • DOI: 10.1038/s41598-026-38676-4


一、露天矿巡检为什么需要"检测+跟踪"?

露天矿的无人机巡检面临三个层面的挑战:

**算力与精度的矛盾。**无人机搭载的边缘计算设备(如Jetson Xavier NX)算力有限,但矿区复杂场景需要高精度的小目标检测能力。

**小目标与遮挡并存。**远距离设备在画面中很小,设备之间又经常相互遮挡,传统检测模型在这两个场景下都容易失效。

**单帧检测不够用。**矿区需要持续追踪设备的运动轨迹和作业状态(如矿卡是否载货),仅靠逐帧检测无法维持目标身份的连续性------相似外观的矿卡容易发生ID切换。

论文的解决思路是:先用轻量化检测模型解决"看到"的问题,再用改进的跟踪算法解决"跟住"的问题,两者协同部署在无人机边缘设备上。


二、检测模型:三项结构改进将YOLOv8s参数从11.13M压到4.39M

基座模型选择 YOLOv8s,论文给出的理由是:结构模块化便于针对性修改、参数量适中有优化空间、工业部署成熟度高。

图片来源于原论文

三项结构改进(LAMP剪枝在第三节单独介绍):

2.1 骨干网络:C2f-DCN(可变形卷积DCNv2)

将C2f模块中的标准卷积替换为 DCNv2可变形卷积。DCNv2在每个采样点增加了可学习的偏移量和调制权重,使卷积核能自适应地变形以匹配目标的不规则轮廓。矿区设备受作业和环境影响形态多变,可变形卷积比固定形状的标准卷积更适合捕捉这类目标。

2.2 颈部网络:AFPN(渐进式特征金字塔)

用 **AFPN(Asymptotic Feature Pyramid Network)**替换原始的PANet。AFPN的核心思路是先融合语义差距小的相邻层级特征,再逐步引入高层级特征,避免PANet直接融合语义差距大的非相邻层级造成的信息冲突。融合时使用softmax加权的自适应空间融合,权重通过卷积层学习。

2.3 检测头:LSDECD-Head(轻量化空间双增强交叉解耦头)

设计了一个 轻量化共享细节增强卷积检测头,接收4个层级的特征图(P2到P5),通过1×1卷积调整通道数,再经两个3×3共享细节增强卷积模块聚合特征,最后分别输出分类和回归结果。使用可变形卷积实现多层级特征的自适应聚合,并加入空间感知注意力增强对小目标的关注。

2.4 损失函数:Focaler-GIoU

将CIoU损失替换为 Focaler-GIoU,结合Focaler-IoU的动态样本加权和GIoU的几何惩罚。Focaler-IoU通过阈值参数d和u将样本分为三档,对中等难度样本施加更大权重,迫使模型在困难/遮挡目标上投入更多学习资源。

消融实验结果

配置 mAP50 参数量/M FLOPs/G 推理时间/ms
YOLOv8s基线 0.557 11.13 28.5 347
+C2f-DCN+AFPN 0.795 4.84 17.9 291
+LSDECD-Head 0.823 4.39 14.7 232
+Focaler-GIoU 0.868 4.39 14.7 196

几个关键发现:

  • C2f-DCN+AFPN是最大贡献因素:mAP50从0.557提升到0.795(+23.8个百分点),同时参数量从11.13M降到4.84M(减少56.5%)

  • LSDECD-Head在不增加参数的情况下进一步将mAP50提升到0.823,FLOPs从17.9G降到14.7G

  • Focaler-GIoU将mAP50推到0.868,推理时间从232ms降到196ms


三、LAMP剪枝与多目标跟踪

3.1 LAMP剪枝:30%剪枝率为最优平衡点

使用 **LAMP(Layer-wise Adaptive Magnitude Pruning)**对模型进行全局剪枝,测试了0%-80%共9档剪枝率。需要说明的是,剪枝实验的起点模型(未剪枝参数量5.62M)与消融实验的最终模型(4.39M)参数量不同,这是因为剪枝实验基于包含完整结构改进但未经剪枝优化的版本。

剪枝率 mAP50 参数量/M FLOPs/G 推理时间/ms
0% 0.857 5.62 20.2 305
10% 0.860 5.13 18.5 274
20% 0.870 4.82 16.2 225
30% 0.868 4.39 14.7 196
40% 0.862 4.13 10.6 182
50% 0.795 3.95 9.4 170
60% 0.642 3.52 9.3 158
70% 0.592 3.09 8.5 145
80% 0.553 2.66 7.6 130

30%剪枝率下mAP50为0.868,与20%剪枝率的0.870几乎持平,但参数和推理时间更优。超过40%后性能开始明显下降,50%时mAP50骤降到0.795,60%以上则降至0.642以下。

图片来源于原论文

3.2 改进ByteTrack:空间-外观相似性矩阵

原始ByteTrack仅依赖IoU进行目标关联,在矿区场景中容易因相似外观的矿卡造成ID切换。论文提出两项改进:

空间-外观相似性矩阵(ASM):融合目标的空间位置、运动状态(速度/加速度)、作业状态(如载货/空载)和外观特征(颜色差异)进行综合匹配,权重系数通过敏感性分析确定(空间权重ε=0.6,外观权重1-ε=0.4)。

加速度校正函数:在轨迹预测中引入加速度修正项,动态调整校正系数,提升急停/急转场景下的预测准确性。

跟踪消融实验

跟踪评估基于 10段设备操作视频(共120分钟),在Jetson Xavier NX上测试。

配置 MOTA/% MOTP/% IDF1/% ID切换 单帧跟踪/ms FPS
ByteTrack基线 72.2 66.2 72.6 68 45 22.22
+ASM矩阵 73.5 65.8 73.2 59 38 26.32
+校正函数 73.0 65.5 72.9 61 39 25.64
+两者结合 75.8 67.2 74.4 47 32 31.25

两项改进叠加后:MOTA从72.2%提升到75.8%,ID切换从68次降到47次(-30.9%),单帧跟踪时间从45ms降到32ms。

与最新跟踪方法对比

方法 MOTA/% MOTP/% IDF1/% ID切换
BoT-SORT 71.5 65.3 70.2 72
StrongSORT 73.1 66.1 72.3 63
MVTL-UAV 74.2 65.9 73.5 58
ByteTrack 72.2 66.2 72.6 68
本文方法 75.8 67.2 74.4 47

本文方法在MOTA、MOTP、IDF1三项指标上均为最高,ID切换数量最少(47次,比次优MVTL-UAV的58次少11次)。


四、与主流检测模型的全面对比

自建矿山数据集对比

数据集包含 6000张图像(原始分辨率5472×3648,训练时裁剪缩放到640×640),目标类别包括矿卡(约65%)、挖掘机、非协作目标(未授权车辆/人员)等。

以下所有推理和功耗测试均在 Jetson Xavier NX(21 TOPS, 8GB)上进行。

方法 mAP50 参数/M FLOPs/G 模型大小/MB 推理/ms CPU占用/% 功耗/W
YOLOv8s 0.553 11.13 28.5 21.46 364.23 38.5±2.3 12.8±1.1
SSD 0.724 8.94 15.7 5.94 223.77 42.1±1.8 10.5±0.9
YOLOv9s 0.584 12.13 18.7 23.25 425.36 45.7±2.1 14.2±1.3
YOLOv10s 0.564 10.57 22.9 19.57 353.24 40.3±1.9 13.1±1.0
YOLOv11s 0.573 9.1 23.8 17.65 323.41 39.8±2.0 12.5±0.8
Faster RCNN 0.582 7.9 11.8 8.27 287.4 51.2±2.5 15.3±1.2
本文方法 0.868 4.39 14.7 4.76 196 28.6±1.5 8.3±0.7

本文方法在mAP50、参数量、模型大小、推理速度、CPU占用率和功耗六项指标上均为最优(FLOPs方面Faster RCNN的11.8G低于本文的14.7G):

  • mAP50比次优SSD高 14.4个百分点 ,比YOLOv8s基线高 31.5个百分点

  • 参数量仅为YOLOv8s的 39.4%

  • 功耗仅 8.3W,比YOLOv8s低35.2%

  • CPU占用率 28.6%,为所有方法中最低

VisDrone2019跨数据集验证

方法 mAP50 推理/ms
YOLOv8s 0.523 324.23
SSD 0.672 203.77
本文方法 0.812 176.24

在未见过的VisDrone2019数据集上,mAP50仍达0.812,验证了模型的泛化能力。

图片来源于原论文


五、总结与思考

这篇工作的核心亮点在于 检测与跟踪的一体化设计,以及对无人机实际部署约束的充分考量(算力、功耗、模型大小)。

几点值得关注的发现:

**C2f-DCN+AFPN的组合效果远超预期。**消融实验中,仅这一项改进就同时提升了mAP50(+23.8个百分点)并大幅压缩了参数量(-56.5%)。这说明在特定场景中,选择合适的特征提取策略(可变形卷积+渐进融合)比堆叠更多模块更有效。

**功耗和CPU占用率是被忽视的指标。**大多数检测论文只报告mAP和FPS,但对于无人机部署,功耗(8.3W vs 12.8W)和CPU占用率(28.6% vs 38.5%)同样关键------它们直接决定了无人机的续航时间和多任务并行能力。这篇论文将这些指标纳入对比是一个值得推广的做法。

**跟踪的实用价值。**在矿区场景中,跟踪的意义不仅是维持目标身份连续性,更重要的是结合"作业状态"(载货/空载)进行匹配。ASM矩阵中引入运营状态量化(载货=1、空载=0)是一个贴合场景的设计。

局限性方面,论文的检测部分推理速度为196ms(约5 FPS),对于快速移动场景可能不够流畅。此外,自建数据集中矿卡占65%,类别分布不均衡可能对其他目标的检测精度产生影响。论文仅公开了跨数据集验证所用的VisDrone2019数据集链接,自建矿山数据集未公开,这对后续工作的复现和扩展构成一定限制。

相关推荐
玛卡巴卡ldf2 小时前
【LeetCode 手撕算法】(矩阵)73-矩阵置零、54-螺旋矩阵(贪吃蛇)、48-旋转图像
java·数据结构·算法·leetcode·力扣
C^h2 小时前
RTthread中的内存池理解
linux·数据库·c++·算法·嵌入式
深藏功yu名2 小时前
Day25(高阶篇):RAG检索与重排序算法精研|从原理到参数调优,彻底攻克检索瓶颈
人工智能·算法·ai·自然语言处理·排序算法·agent
郝学胜-神的一滴2 小时前
深入解析:生成器在UserList中的应用与Python可迭代对象实现原理
开发语言·python·程序人生·算法
雪木木2 小时前
刷题:力扣热题100--滑动窗口(Day03)
算法·leetcode
Yzzz-F2 小时前
Problem - 2157D - Codeforces
算法
颜酱2 小时前
回溯算法实战练习(2)
javascript·后端·算法
mtouch3332 小时前
数字沙盘电子沙盘地理信息数据动态加载编辑功能:
人工智能·ai·机器人·无人机·虚拟现实·电子沙盘·数字沙盘
We་ct2 小时前
LeetCode 153. 旋转排序数组找最小值:二分最优思路
前端·算法·leetcode·typescript·二分·数组