冻结比微调更好?YOLOv8/V10迁移学习最佳实践发布,GPU内存直降28%

YOLO架构对于实时目标检测至关重要。然而,在无人驾驶飞行器(UAV)等资源受限的环境中部署它需要高效的迁移学习。尽管层冻结是一种常用技术,但各种冻结配置对当代 YOLOv8 和 YOLOv10 架构的具体影响仍未得到探索,特别是在冻结深度、数据集特征和训练动态之间的相互作用方面。本研究通过详细分析层冻结策略来弥补这一空白。我们使用代表关键基础设施监控的四个具有挑战性的数据集,系统地研究了跨 YOLOv8 和 YOLOv10 变体的多种冻结配置。我们的方法整合了梯度行为分析(L2 范数)和视觉解释(Grad-CAM),以提供对不同冻结策略下训练动态的更深入见解。我们的结果表明,不存在通用的最优冻结策略,而是存在一种取决于数据属性的策略。例如,冻结主干网络对于保留通用特征有效,而较浅的冻结则更适合处理极端的类别不平衡。这些配置与完全微调相比,图形处理器(GPU)内存消耗减少了高达 28%,并且在某些情况下,平均精度均值(mAP@50)得分超过了完全微调。梯度分析证实了这些发现,显示了适度冻结模型的不同收敛模式。最终,这项工作为选择冻结策略提供了实证结果和实践指南。它为资源有限场景下的目标检测提供了一种实用的、基于证据的平衡迁移学习方法。

表 1 总结了近期研究的关键发现。尽管取得了进展,现代 YOLO 架构(YOLOv8, YOLOv10)仍缺乏跨现实世界场景的全面评估,主要集中于特定应用或单一冻结策略,而没有系统评估梯度动态、计算权衡或跨不同数据集特征的性能。这项工作通过对关键基础设施监控的冻结策略进行详细分析,平衡准确性和效率,填补了这一空白。

论文标题:

An Analysis of Layer-Freezing Strategies for Enhanced Transfer Learning in YOLO Architectures

论文 链接

arxiv.org/pdf/2509.05...

背景:YOLO架构

在我们的研究中,我们选择使用 YOLOv8和YOLOv10架构,因为它们相对于前代产品取得了显著的进步和优化,并且具有最先进的性能和效率。这些架构的开发旨在提高目标检测任务的性能、准确性和效率。

这两种架构可参考:《YOLOv8全解析:高效、精准的目标检测新时代------创新架构与性能提升》、《YOLOv10:全新实时端到端目标检测器,性能与效率再升级

应用和数据集

本节介绍所使用的应用和数据集,重点是关于关键基础设施检查和监视的目标检测。无人机(UAV)在监控偏远或危险环境(如电力线和工业场地)方面发挥着关键作用。实时目标检测在这些场景中增强了安全性和运营效率。

为了严格评估模型,精心策划了一个代表真实世界和合成数据的组合数据集,解决了基础设施监控领域的不同方面:

  • 领域多样性: 覆盖范围从详细的变电站设备检查到输电线路资产监控和一般的空中监视场景。
  • 技术挑战: 每个数据集都呈现了独特的计算和检测挑战,从多尺度目标检测到极端的类别不平衡。
  • 环境可变性: 真实世界数据集包含了变化的天气条件、光照场景和季节变化。
  • 数据采集方法: 代表了多种 UAV 平台、相机系统和成像视角。
  • InsPLAD 数据集

InsPLAD数据集专为电力线路资产检查而设计,由真实世界检查期间捕获的 UAV 图像创建。该数据集通过提供资产检测和缺陷分类任务的全面覆盖,填补了文献中的一个关键空白。我们的工作重点放在该数据集的 InsPLAD-det 部分,用于目标检测。

  • 变电站数据集

变电站数据集、为变电站设备检查提供了一个经过广泛标注的资源,满足了电力配电基础设施监控自动化的需求。它包含 7539 张变电站图像,共有 213,566 个标注对象,这些图像使用各种相机捕获,包括手机、全景航空相机、立体 FUR 相机和自动导引车 (AGV)。这些图像是在两年多的时间里从巴西的一个配电变电站收集的,代表了不同的时间、天气和季节条件。

  • Common-VALID 数据集

Common-VALID 数据集源自全面的 VALID 数据集,代表了合成数据生成在基础设施监控研究中的集成。该合成数据集解决了与真实世界数据收集相关的限制和成本,同时为系统评估提供了受控的环境条件。

  • 鸟巢数据集

鸟巢数据集专为检测输电塔上的巢穴而设计,基于通过 UAV 拍摄的航空照片,因此,它提出了一个专业化的单类别检测挑战。

本文中使用的数据集是用于训练和评估目标检测模型的综合资源,提出了诸如类别不平衡和多样化条件等挑战。它们支持计算机视觉和深度学习算法在各种领域自动化检查和维护的发展。合成数据的包含,这在最近的研究中得到使用,提供了潜在优势,例如增加数据多样性以及模拟罕见或危险条件的能力,而无需进行真实世界的数据收集。这些数据集为我们在 YOLO 架构中研究层冻结提供了一个一致的基准,并且是研究人员和工程师旨在推进自动化检测技术的宝贵资产。

表 2 总结了每个数据集如何应对基础设施监控中的特定挑战,展示了我们实验框架的全面性。

图 3 展示了实验数据集训练集中使用的说明性样本。

表 3 提供了所使用的四个数据集的详细概述,包括训练集、测试集和验证集中的图像数量、目标类别和实例的数量,以及关键描述、环境和挑战,这些突出了目标检测模型在现实世界基于 UAV 的应用中所面临的复杂性。

在Coovally平台上汇聚了国内外开源社区超1000+ 热门模型 ,覆盖YOLOv8、YOLOv10等 主流视觉算法。同时集成300+公开数据集 ,涵盖图像分类、目标检测、语义分割等场景,一键下载即可投入训练,彻底告别"找模型、配环境、改代码"的繁琐流程!

**!!点击下方链接,立即体验Coovally!!**

**平台链接:** **https://www.coovally.com**

在实际使用中,开发者还可以借助 Coovally 平台, 通过 SSH 协议使用熟悉的工具(如 VS Code、Cursor、WindTerm 等)远程连接 Coovally 云端算力资源,进行实时代码开发与调试,享受本地级操作体验的同时,充分利用平台提供的高性能 GPU 加速训练过程。

实验设计

我们进行了系统评估迁移学习策略(特别是层冻结)对 YOLOv8 和 YOLOv10 模型性能和计算效率影响的实验方法。我们的总体策略包括两个主要部分。我们实施并比较了几种层冻结配置,即在目标数据集上重新训练期间冻结预训练模型主干中的特定块。这些配置对应于冻结前 4 个块 (FR1)、9 个块 (FR2,包含整个主干) 或 22/23 个块 (FR3),并与标准微调 (fine-tuning) 和从头训练 (training from scratch) 进行基准测试。所有实验的评估都依赖于关键性能指标 (mAP@50, mAP@50:95) 和资源指标 (GPU 使用量、训练时间)。

结果

我们对 YOLOv8 和 YOLOv10 模型采用的各种训练策略的实验结果进行全面分析。我们深入研究了性能指标方面的主要成果,检查了层冻结对梯度幅度和使用 Grad-CAM 的视觉解释的影响,并提供了关于训练时间、资源利用和性能权衡的额外见解。附录 C 提供了对特定失败案例的详细分析,特别是关于鸟巢数据集在激进层冻结下的异常行为。

  • 性能指标与权衡

重点分析了 YOLOv8 和 YOLOv10 模型在不同层冻结配置下的性能指标。下表总结了结果,突出了关键指标,如不同 IoU 阈值下的平均精度均值 (mAP)、训练时间(分钟)和最大 GPU 使用量 (MB)。

表 6 展示了 YOLOv8 在四个不同数据集上的性能指标,说明了不同冻结策略如何影响模型的有效性和效率。类似地,表 7 提供了 YOLOv10 模型在相同数据集上的相应结果。

表 8 列出了每个数据集的最佳层冻结配置,突出了在准确性和计算效率之间取得平衡的性能最佳的方法。为了产生这些综合发现,将 YOLOv8 和 YOLOv10 实验的结果合并到一个池中,确保可比性,因为所有实验都在相同的硬件设置上执行。

图 4 和图 5 分别说明了 YOLOv8 和 YOLOv10 在不同实验方法和数据集中获得的最大 GPU 使用量与 mAP50 之间的权衡。可以观察到,对于大多数数据集,当冻结模型的前四个块或整个主干时,实现了最佳平衡。

  • 梯度行为与视觉分析

图 6 显示了 YOLOv10 小型模型在四个数据集上的 L2 范数梯度的演变过程。

为了对所观察到的梯度行为提供全面的定量验证,表 9 展示了所有训练策略和数据集的梯度幅度统计分析。分析揭示了不同的优化状态:从头训练表现出最高的梯度幅度和极大的变异性(82-99% 的变异系数),表明优化景观混乱。微调和部分冻结策略表现出显著提高的稳定性,其中主干冻结 (v10s-9b) 通过与微调相比减少 10-15% 的幅度并保持低变异性,实现了最佳平衡。约束最严格的方法 (v10s-23b) 显示梯度急剧减少(16K-96K 范围),证实了学习集中在检测头部。

为了提供我们发现的视觉验证,图 7 使用第 5.2 节详述的 Grad-CAM 方法显示了从 Common-VALID 数据集的样本图像生成的激活图。这些在第 1 周期、第 10 周期以及最佳验证周期计算的地图,展示了不同训练策略如何影响模型的注意力模式。

Coovally平台还可以直接查看"实验日志"。提供直观的可视化训练界面,清晰设置参数,监控训练过程(Loss, mAP等指标实时可视化)。

并行实验,效率倍增! 一键发起多个训练任务并行运行,结果一目了然,快速锁定候选者。支持分布式训练,充分利用硬件资源,大幅缩短训练时间。

结论

本研究证明,在 YOLO 架构中进行层冻结可有效优化计算效率与检测性能之间的权衡,解决了先前研究中的关键空白,这些研究主要集中于像 YOLOv5 这样的旧架构,数据集多样性有限,且对训练动态的分析不足。通过在代表关键基础设施监控的四个多样化真实世界数据集上,对现代 YOLOv8 和 YOLOv10 变体进行系统评估,我们的发现超越了基本的效率-准确性平衡,提供了对依赖于模型大小的冻结策略和特定数据集适应模式的见解。关键贡献包括可操作的部署指南,例如在大多数场景中为主干冻结以实现最佳性能-效率平衡,在资源严重受限时采用四块冻结,以及通过梯度监控 early detecting(早期检测)训练不稳定性,同时还提供了一种基于梯度的分析方法论,为从业者提供了在各种背景下优化冻结策略的诊断工具。

这些进步使得在边缘设备上实现先进的目标检测成为可能,并加速了基于 UAV 的基础设施监控的模型迭代,解决了资源受限环境中的关键障碍。

局限性包括我们的静态冻结方法以及缺乏边缘设备验证。未来的研究应开发自适应冻结算法,这些算法能够基于训练动态(如梯度流、逐层特征相关性或领域偏移指标)动态调整冻结参数, potentially(可能地)利用来自验证指标的实时反馈或强化学习。在实际 UAV 平台上进行全面的部署研究对于评估实际效益至关重要,包括延迟、能耗和环境鲁棒性。

相关推荐
这张生成的图像能检测吗3 小时前
(论文速读)Prompt-Free Diffusion:告别提示工程的烦恼
人工智能·深度学习·计算机视觉·prompt·图像生成·超分辨率重建·clip
MediaTea3 小时前
AI 术语通俗词典:CV(计算机视觉)
人工智能·计算机视觉
爱编程的化学家3 小时前
代码随想录算法训练营第21天 -- 回溯4 || 491.非递减子序列 / 46.全排列 /47.全排列 II
数据结构·c++·算法·leetcode·回溯·全排列·代码随想录
点云侠3 小时前
OpenCV——批量读取可视化图片
人工智能·opencv·计算机视觉
xixixi777773 小时前
LangChain(一个用于构建大语言模型(LLM)应用程序的开源框架)
人工智能·深度学习·机器学习·langchain·大模型·大模型框架
console.log('npc')3 小时前
前端性能优化,给录音播放的列表加个播放按键,点击之后再播放录音。减少页面的渲染录音文件数量过多导致加载缓慢
前端·javascript·vue.js·算法
_不会dp不改名_3 小时前
leetcode_138 随机链表的复制
算法·leetcode·链表
小欣加油3 小时前
leetcode 129 求根节点到叶节点数字之和
数据结构·c++·算法·leetcode
小欣加油4 小时前
python123 机器学习基础练习2
人工智能·python·深度学习·机器学习