【导读】
海底塑料、渔网、废弃物,如何精准识别?传统算法在水下常常"看不清、识不准"。
这篇最新研究对比了YOLOv7到YOLOv10及Faster R-CNN的表现,结果显示:YOLOv8 以 80.9% 的 mAP 击败所有对手,成为水下垃圾检测的新标杆。它究竟强在哪?这篇文章带你快速了解。
随着全球人口和工业的持续增长,维持一个安全卫生的城市环境至关重要。非法垃圾处理会破坏生态系统并构成健康风险。若不及时处理,可能导致严重健康问题和环境退化。随意丢弃垃圾和污染环境会危害许多人,包括儿童、老年人、旅行者、大小企业以及动物。因此,垃圾管理是一个全球性问题,历来是备受关注的议题。水下污染,特别是来自塑料和化学污染物,对海洋生物多样性和生态系统有严重影响。
机器学习、人工智能(AI)和自主系统是近期技术突破的典型代表,为检测、分类和清除水下污染物提供了有前景的解决方案。例如,基于AI的图像识别系统,如卷积神经网络(CNNs),可显著提升对各种垃圾形式的识别能力,从而实现更精准高效的清理作业。因此,本研究旨在对最新物体检测模型YOLOv7至YOLOv10以及Faster R-CNN进行比较评估,以应用于水下垃圾检测场景。通过分析这些模型在15类水下废弃物材料数据集上的性能,本研究试图确定在严苛的海洋环境中,哪种模型在识别废弃物材料方面表现最优。

论文标题:
Underwater Waste Detection Using Deep Learning: A Performance Comparison of YOLOv7--10 and Faster R-CNN
论文链接:
研究方法
- 数据
本研究分析所用的数据来自一个在线数据仓库。这些数据包含了海底图像,这些图像因垃圾和废弃物而受损。最初,共有三个不同的数据集,即训练集、测试集和验证集。训练数据集包含3628张图像,测试数据集包含501张图像,验证数据集包含1001张图像及其对应的标签。每个数据集包含十五类垃圾,具体类型如下:口罩、罐头、手机、电子产品、玻璃瓶、手套、金属、渔网、聚乙烯袋、塑料瓶、金属棒、太阳镜、轮胎和杂项。图1和图2展示了原始数据集中的一些图像。这些数据随后使用五种不同的目标检测模型进行训练,分别为YOLOv7、YOLOv8、YOLOv9、YOLOv10和Faster R-CNN。

然而,在详细讨论这些模型之前,有必要先介绍本研究的实验流程。因此,图3展示了工作流程的总体概述,简要说明每个步骤,以便更好地理解本研究的结构,包括所采用的方法。

- 用于训练数据的物体检测模型
YOLO是一个广为人知的物体检测框架,自其推出以来已发展到YOLOv10,每个版本都在速度、准确性和模型设计方面有所改进。
-
YOLOv7: YOLOv7代表了实时目标识别领域的重大进展,重点在于平衡准确性和计算效率。它引入了经过修订的架构,包括放大的卷积和优化的锚点设置,从而在保持良好检测准确性的同时,实现了更短的推理时间。通过添加跨阶段部分连接(CSP)和路径聚合网络(PANet),YOLOv7在低资源边缘设备上的效率得到提升。
-
YOLOv8: YOLOv8 在 YOLOv7 的基础上进一步提升了检测精度,尤其针对较小物体和复杂场景。YOLOv8 的主要突破在于引入了基于变压器的模块,这使得模型能够更好地捕捉图像中的长距离依赖关系。该版本在训练过程中还采用了高级数据增强技术,如马赛克和混淆,这提升了模型在多个数据集上的泛化能力和鲁棒性。YOLOv8在需要更高精度的应用中具有重要意义,例如医学成像和自动驾驶。本研究中使用的YOLOv8架构如图4 所示。

-
YOLOv9: 引入了将卷积神经网络(CNN)与视觉变换器(ViTs)相结合的混合模型,从而在各种基准测试中实现了更高的性能。YOLOv9 的架构设计旨在通过引入动态头网络和自适应锚点自由方法,在速度与准确性之间实现最佳平衡,使其能够灵活适应不同物体尺度和宽高比。该版本在需要实时处理和高精度应用场景中广受欢迎,例如视频监控和工业自动化。
-
YOLOv10: YOLOv10 是最新创新之一,通过统一架构突破物体检测极限,该架构融入了 A. Wang 等提出的自监督学习方法。YOLOv10 最显著的特点是能够从无标签数据中学习,这大大减少了对复杂标签数据集的需求。此外,它采用了变压器中注意机制的增强版本,在杂乱或遮挡场景中实现了卓越的精度。该工具对自主无人机和复杂机器人视觉系统等应用至关重要,因这些场景中标注数据往往难以获取或成本高昂。
-
Faster R-CNN: Faster R-CNN 是物体识别领域的一项重大突破,通过引入区域提案网络(RPN)扩展了先前 R-CNN 模型的功能,从而提升了检测速度和准确性。Faster R-CNN由S.Ren等于2015年提出,旨在解决其前辈模型中的低效问题,特别是R-CNN和Fast R-CNN中使用的缓慢区域提案算法。RPN作为一个全卷积网络,是Faster R-CNN的核心创新。它通过与检测网络共享卷积层,快速生成高质量的区域建议,大幅降低计算开销并实现端到端训练。
- 评估指标
- 精确率: 精确率衡量所有正类预测中真实正例的比例,反映模型避免误报的能力。
-
召回率: 另一方面,召回率估算所有实际正例中真实正例的比例,反映模型识别某类所有实例的能力。
-
平均精确率(mAP): mAP 通过计算不同物体类别下的平均精确率(AP)值,扩展了平均精确率(AP)的定义。这在多类别物体识别场景中尤为有用,可对模型性能进行全面评估。
值得注意的是,像 YOLOv8 这样精度与效率兼顾的模型,在真实项目中也需要一个高效的平台来进行训练和部署。如果你也有类似的模型训练或调试需求,不妨试试 Coovally 平台 ------它内置 400+ 精选开源数据和1000+开源模型 ,覆盖分类、检测、分割等主流任务,并支持即调即用、无缝衔接训练流程,让你无需再为环境配置和数据准备耗费精力,专注于算法本身与效果提升。

!!点击下方链接,立即体验Coovally!!
平台链接: www.coovally.com
结果与讨论
本研究使用了15种垃圾类型的5130张图像。图5展示了数据在这些15个类别中的分布情况。在使用相应的目标检测算法对数据集进行训练后,获得了评估指标,如表1所示。可以看出YOLOv8模型在精度、召回率和平均精度值方面表现良好。


然而,与YOLO模型相比,Faster R-CNN的评估指标值最低。评估YOLOv8模型的混淆矩阵至关重要。因此,如图6所示,获得了YOLOv8的混淆矩阵,它表明YOLOv8模型表现良好。

还获得了YOLOv8模型的指标曲线,如图7所示。这些曲线表明YOLOv8模型进展良好,损失值下降,召回率和mAP指标有所提升。

此外,还获得了YOLOv8模型的预测结果,其中部分预测样本如图8、9、10和11所示。根据图8、9、10和11中显示的模型预测结果,YOLOv8模型能够精确检测各种物品。因此,显然YOLOv8具备高效检测垃圾材料的能力。尽管取得了令人鼓舞的结果,本研究仍存在若干局限性。


首先,本研究使用的数据集未能完全涵盖现实世界中的水下污染及其他环境条件,包括低能见度、光照变化和复杂背景等。模型仅在较少类别的数据上进行评估,这限制了结果在应用于不同垃圾类型时的泛化能力。未来研究可通过使用来自多个地点和类别的更大数据集来扩展本研究。此外,整合领域适应和迁移学习技术可能有助于模型在不同水下环境中更好地泛化。将实时检测能力与水下机器人系统结合,可能对环境监测和清理活动产生巨大影响。
为了帮助用户更高效地掌握模型训练全过程,Coovally平台还可以直接查看"实验日志" 。在每一个实验详情页中,用户都可以实时查看训练日志、输出信息或报错内容,无需额外配置、无缝集成于工作流中!

不论是模型调参、错误排查,还是过程复现,这项新功能都将大幅提升你的实验效率。
结论
本研究使用包含15类垃圾的5130张图像数据集,展示了深度学习技术在水下垃圾检测方面的最新进展,采用了多个目标检测模型。研究在数据集上应用了YOLOv7、YOLOv8、YOLOv9、YOLOv10和Faster R-CNN,并发现YOLOv8在准确率上超越了其他模型以及
Faster R-CNN,平均精确率达80.9%。该模型获得的指标曲线和预测结果证明了其以更高准确率检测物体的能力。最后,本研究结论指出,YOLOv8在检测多种水下垃圾类别时表现出可靠且高效的性能。