AI如何一眼看穿鱼群健康?看改进HRNet模型实现水下健康监测

【导读】

本文旨在解决水产养殖中鱼类健康监测的关键技术难题------高精度鱼类姿态估计 。针对鱼类游动快速、姿态多变所带来的挑战,本研究对主流姿态估计网络HRNet进行了针对性改进,提出了名为HPFPE的新模型。

鱼类在生长过程中对生理、心理及环境变化高度敏感,常出现游近缸壁或浮于水面等异常行为。姿态估计是指通过分析图像或传感器数据,利用计算机视觉技术确定物体在空间中的位置和方向的过程。借助姿态估计算法,可以追踪鱼类不同部位的运动,捕捉姿态变化,从而有效监测其行为与健康状况。此外,观察和分析鱼类姿态有助于保护水生生态系统,维护健康的生态环境。该方法可推动生态可持续的水产养殖模式,提升鱼类品质,支持可持续发展。因此,鱼类姿态估计(FPE)方法对加强疾病预防和健康管理至关重要,能显著提高鱼类存活率和观赏价值。

论文标题:

High-Precision Fish Pose Estimation Method Based on Improved HRNet

论文 链接 **:

**

www.smartag.net.cn/EN/10.12133...

材料与方法

首先进行数据收集、标注和增强。随后,将原始数据及经噪声增强的数据集作为实验输入。接着,基于HRNet构建了鱼类姿态估计模型的结构,最终输出为生成的热力图和每条鱼关键点的位置图。

  • HPFPE模型
  • 框架

HRNet通过结合下采样与上采样层,在保持高分辨率表征的同时增强上下文和语义理解能力,该架构在姿态估计任务中展现出最先进的性能。本研究以HRNet为骨干网络,融合膨胀卷积和注意力机制以研究FPE。整体架构如图4所示。

原HRNet模型中多分辨率特征融合可能引入噪声并导致信息冗余。为解决该问题并增强上下文信息,在每个阶段末端引入卷积块注意力模块 (CBAM) ,显著提升模型捕获鱼类关键点信息的能力,进而提高整体姿态估计精度,同时增强模型的适应性与鲁棒性。

HPFPE共包含4个阶段。从阶段2开始,每个阶段依次引入并行分支,其中第n个分支的输出作为第(n+1)个分支的输入。模型通过密集上采样和下采样操作实现阶段分支输出与下一阶段输入的跨特征融合。此外,每阶段新增分支的通道数翻倍,分辨率较前一阶段最低分辨率分支减半。因此阶段1至阶段4的特征图分辨率分别为原始数据的1/4、1/8、1/16和1/32。各阶段生成的多尺度特征图具体配置详见表3。

  • CBAM模块

FPE是行为识别的基础,其精度直接影响行为识别结果的准确性。当前鱼类姿态估计方法及其精度研究有限,现有方法精度仍较低。精确的姿态估计依赖于关键点检测、准确定位及关键点间逻辑关联的正确建立。注意力机制有助于捕获鱼体细粒度特征,增强特征提取并提升模型精度。CBAM结合通道注意力与空间注意力,能捕获多维度特征相关性并提升识别性能,且相较于自注意力和挤压激励网络(SENet)等机制,CBAM是轻量级通用模块,计算开销小且不会显著增加模型复杂度。 因此,在模型每个阶段后嵌入CBAM模块,共串联9个CBAM模块,实现通道与空间维度的特征重校准,从而提升整体检测精度。

结果分析

  • 与原始HRNet的姿态估计结果对比

在HRNet架构每个阶段末端加入CBAM模块,同时集成膨胀卷积以增强感受野。使用斑石鲷数据将该模型与原始HRNet进行对比,姿态估计实验结果如表6所示。

结果表明: 即使采用相同骨干网络和输入尺寸,加入CBAM和膨胀卷积后AP与AR分数均显著提升。同时,HPFPE在AP50、AP75、AR50和AR75指标上均取得更高值,表明该模型在斑石鲷数据上优于原始HRNet。

图5展示了HPFPE与标准HRNet在斑石鲷数据上生成的热力图对比。当以HRNet-W32为骨干网络、输入尺寸为384×288时,HPFPE能同时聚焦多条鱼体并更关注头部区域。这表明CBAM与膨胀卷积的集成增强了模型对鱼体关键点的关注能力。

  • 与其他方法的对比

除原始HRNet外,还将HPFPE与DeepPose、卷积姿态机(CPM)、SCNet和Lite-HRNet等主流姿态估计方法进行对比。使用斑石鲷数据在256×192和384×288两种输入尺寸下进行评估(结果见表7和表8)。

其AR分数同样优于其他方法,表明在召回率方面具有优势。通过对比AP50和AP75分数可知HPFPE全面优于其他方法,表明其在AP和AR指标上均领先主流方法。

  • CBAM在不同位置的姿态估计结果对比

CBAM能有效增强模型对姿态相关信息的捕获能力,但其在模型中的位置对性能影响显著。将CBAM模块分别置于HRNet的特征提取部分(CBAMfront)、融合层后(CBAMfuse)和阶段后(CBAMstage)进行实验(结果见表9)。

  • 与其他注意力机制的对比

将CBAM分别替换为SE、ECA、CA和LSKblock注意力机制,对比HRNet集成不同注意力机制时的姿态估计性能(结果见表10)。

当骨干网络为HRNet-W32、输入尺寸384×288时,CBAM取得最高AP(74.02%)和AR(77.40%) 。在相同骨干网络和输入尺寸下,CBAM的AP和AR值均优于其他机制。总体而言,CBAM在AP50和AR50上与其他机制差异较小,但在AP75和AR75上表现出明显优势。因此CBAM能更有效地提升HPFPE模型的精度。

  • 消融实验

为验证膨胀卷积与CBAM的协同有效性,在斑石鲷数据上对原始HRNet、仅加入膨胀卷积、仅加入CBAM以及同时加入两种模块的模型进行消融实验(结果见表11)。

结果表明: 单独加入膨胀卷积或CBAM时,不同骨干网络和输入尺寸下的AP与AR分数仅有小幅提升;而同时集成两种组件时,模型性能呈现显著改善。 此外,引入CBAM和膨胀卷积后,AP50和AR50普遍提升,而AP75和AR75的差异相对较小。这证实了膨胀卷积与CBAM模块的集成能显著增强鱼类姿态估计模型的性能。

  • 在观赏鱼数据上的对比

为评估HPFPE的泛化能力,使用观赏鱼数据对比DeepPose、CPM、HRNet、SCNet和Lite-HRNet的性能(结果见表12)。

当以HRNet-W48为骨干、输入尺寸384×288时,HPFPE的AP达到****52.96% ,AR为****59.50% ,优于其他姿态估计方法。 与斑石鲷数据结果相比,AP和AR均下降约20个百分点,这可能源于图像中鱼类数量增加带来的复杂度提升。

在观赏鱼数据集上,HPFPE在AP、AR、AP50、AR50、AP75和AR75指标上优于大多数算法,进一步证明了其有效性和泛化能力。然而在多鱼场景中仍需进一步改进。

结论

本文提出了HPFPE------一种基于HRNet的鱼类姿态估计模型,专用于水下鱼类姿态估计。为提升模型性能,在HRNet各阶段后引入CBAM模块,并采用膨胀卷积扩大感受野。实验结果表明:以HRNet-W48为骨干网络、输入尺寸384×288时,HPFPE在斑石鲷数据上达到74.12%的AP,较原始HRNet提升1.28%。该模型在观赏鱼数据上也表现良好,证明了其跨鱼种的适应性。因此,本研究推进了鱼类姿态估计的精度,为鱼类行为识别研究提供了有价值的科学见解与技术基础。

相关推荐
东语~8 分钟前
Transformer 模型在自动语音识别(ASR)中的应用
深度学习·transformer·语音识别
溯源00626 分钟前
【deepseek问答记录】:chatGPT的参数数量和上下文长度有关系吗?
人工智能·深度学习·chatgpt
Y200309161 小时前
支持向量机核心知识总结
算法·机器学习·支持向量机
小巫程序Demo日记2 小时前
插入排序讲解
数据结构·算法·排序算法
春末的南方城市2 小时前
统一虚拟试穿框架OmniTry:突破服装局限,实现多品类可穿戴物品虚拟试穿无蒙版新跨越。
人工智能·深度学习·机器学习·计算机视觉·aigc
thesky1234562 小时前
camel agent
大数据·人工智能·深度学习·智能体
CoovallyAIHub2 小时前
应对不平衡数据集:MixUp、CutMix与Focal Loss实战指南
深度学习·算法·计算机视觉
*星星之火*2 小时前
【GPT入门】第59课 大模型内存计算指南:7B/8B/70B 模型在 32/16/8/4bit 精度下的内存需求测算
人工智能·gpt·深度学习
NAGNIP3 小时前
一文理解提示微调(Prefix Tuning/Prompt Tuning/P Tuning)
算法