图形摘要
N-EIoU-YOLOv9:一种用于水稻叶部病害轻量化移动检测的信号感知边界框回归损失
Dung Ta Nguyen Duc, Thanh Bui Dang, Hoang Le Minh, Tung Nguyen Viet, Huong Nguyen Thanh, Dong Trinh Cong
N-EIoU-YOLOv9:一种用于水稻叶部病害轻量化移动检测的信号感知边界框回归损失

图 1: 图形摘要
亮点
N-EIoU-YOLOv9:一种用于水稻叶部病害轻量化移动检测的信号感知边界框回归损失
Dung Ta Nguyen Duc, Thanh Bui Dang, Hoang Le Minh, Tung Nguyen Viet, Huong Nguyen Thanh, Dong Trinh Cong
- 提出了一种基于 YOLOv9t 的改进轻量化检测模型,用于水稻叶部病害识别。
- 引入了一种新颖的 N-EIoU 损失函数,融合了聚焦机制和几何效率,以解决困难样本不平衡问题。
- 取得了优越的性能,实现了 90.3% 的 mAP@50,相对于基线在 mAP@50 上提升了约 4%,并且在更严格的 IoU 阈值下观察到更显著的增益。
- 成功实现了模型的 Float16 量化优化。
- 通过 TensorFlow Lite 在 Android 设备上成功部署,平均推理时间为 156ms。
N-EIoU-YOLOv9:一种用于水稻叶部病害轻量化移动检测的信号感知边界框回归损失
Dung Ta Nguyen Duca, Thanh Bui Danga,b, Hoang Le Minha, Tung Nguyen Vieta,*, Huong Nguyen Thanha,**, Dong Trinh Congb,
a河内科学技术大学电气与电子工程学院,越南河内市二征夫人郡戴国越路 1 号,邮编 100000
b河内科学技术大学控制工程与自动化研究所,越南河内市二征夫人郡戴国越路 1 号,邮编 100000
https://arxiv.org/pdf/2601.09170
摘要
水稻叶部病害的早期准确检测对于精准农业至关重要,然而在资源受限的移动设备上部署高性能目标检测模型仍然是一个重大挑战。在本工作中,我们提出了 N−EIoU−YOLOv9N-EIoU-YOLOv9N−EIoU−YOLOv9,一个轻量化检测框架,其核心是一种源自非单调梯度聚焦和几何解耦原理的信号感知边界框回归损失,称为 N−EIoUN-EIoUN−EIoU(非单调高效交并比)。所提出的损失函数通过将 N-IoU 的非单调聚焦机制与高效 IoU (EIoU) 的几何解耦特性相结合,显式地重塑了定位梯度。从信号处理的角度来看,N-EIoU 通过放大低重叠困难样本的梯度来增强弱回归信号,同时减少宽度和高度优化之间的梯度干扰。这种设计对于农业病害图像中常见的小目标和低对比度目标特别有效。我们将 N−EIoUN-EIoUN−EIoU 集成到轻量化的 YOLOv9t 架构中,并在包含四个病害类别和健康叶片共 5,908 张水稻叶片图像的自采集田间数据集上评估了所提方法。实验结果表明,N-EIoU 持续优于标准的 CIoU 损失,实现了 90.3% 的平均精度均值 (mAP@50),相对于基线提高了 4.3%,并且在 mAP@50-95 上也有显著提升,表明定位更紧密、更准确。为了验证实际适用性,优化后的模型通过 TensorFlow Lite 和 Float16 量化部署在 Android 设备上,实现了每帧平均 156 毫秒的推理时间,同时保持了准确性。这些结果证实了所提出的 N-EIoU 通过在困难样本上显式地重塑回归信号,在定位精度、优化稳定性和计算效率之间提供了有效的平衡,使其非常适合于基于边缘的农业监测系统。
关键词:水稻叶部病害,YOLOv9,N-EIoU 损失,计算机视觉,TensorFlow Lite,边缘人工智能。
1. 引言
卷积神经网络 (CNNs) 在边缘设备上的部署已经彻底改变了农业监测。然而,水稻叶部病害检测提出了一个独特的"小目标检测"挑战。稻瘟病和褐斑病等病原体通常表现为微小的坏死病斑,占据图像面积不到 5%,从而在背景噪声下产生极端的视觉模糊性。最先进的模型如 YOLOv9 通常使用 CIoU 损失进行边界框回归。虽然对一般目标有效,但我们发现在农业应用背景下,CIoU 存在两个关键限制。首先,困难样本的梯度消失 :正如 N-IoU 理论所证明的,当预测边界框与真实边界框之间的重叠度较低时,标准的基于 IoU 的损失函数表现出衰减的梯度响应。这导致模型在小型、难以匹配的病斑目标上学习缓慢。其次,几何耦合 :CIoU 中的纵横比惩罚项 (v)(v)(v) 引入了宽度 (w)(w)(w) 和高度 (h)(h)(h) 的耦合梯度响应,导致优化过程中的梯度干扰。如果 www 和 hhh 成比例缩放,惩罚项变为零,无法驱动边界框达到正确尺寸。
从信号处理的角度来看,大多数现有的基于 IoU 的回归损失主要从几何角度设计,而对梯度信号如何在不同难度样本间分布的关注有限。在以水稻叶部病害早期阶段等小型、低对比度目标为主的场景中,与困难样本相关的回归信号常常严重衰减,导致次优收敛。尽管最近在 IoU 变体方面取得了进展,但一个能够同时增强弱定位信号并避免几何梯度干扰的统一信号感知公式仍未得到充分探索。
为了弥合这一差距,我们提出了 N-EIoU,一种设计作为梯度重塑机制的混合损失函数。通过综合 N-IoU 的梯度增强能力和 EIoU 的维度解耦,我们的方法优先处理"困难样本"并确保精确定位。该方法被集成到一个轻量化的 YOLOv9t 架构中,并通过可编程梯度信息 (PGI) 进行优化,以防止深层特征丢失。本工作的主要贡献有三个方面:
(1) 我们提出了 N-EIoU,一种新颖的信号感知边界框回归损失,显式地结合了非单调梯度聚焦(通过 N-IoU)和几何解耦(通过 EIoU)。与现有的 IoU 变体不同,N-EIoU 重塑回归梯度以优先处理困难的、小目标样本,同时保持稳定的收敛性。
(2) 我们提供了详细分析,证明 N-EIoU 在类别不平衡和低重叠条件下显著提高了定位精度,对农业图像中常见的小病斑目标在 mAP@50-95 上带来了一致的增益。
(3) 我们通过在移动设备上的端到端部署验证了所提出损失的实际可行性,表明 N-EIoU 不仅提高了准确性,而且在边缘环境的激进模型压缩(Float16 量化)下也提高了鲁棒性。
1.1. 相关工作
如今,科学技术的快速发展------尤其是机器学习和深度学习------为解决农业领域的挑战开辟了新的机会。最有效的方法之一是将深度学习应用于植物图像进行病害检测和分类。近年来,许多研究报告称,通过使用这些技术,检测准确性得到了显著提高 [1, 4]。
深度学习旨在模拟人类的学习和决策方式,其中卷积神经网络 (CNNs) 在图像识别和模式分析等任务中发挥着核心作用 [6]。基于 CNN 的模型已成功应用于各个领域,包括医疗保健、金融、教育和农业 [7]。在农业领域,深度学习已在植物病害检测方面显示出有希望的结果。例如,[8] 研究了不同感染阶段的叶部病害监测,并分析了光照条件、数据集大小和学习率等因素对模型性能的影响。
除了分类之外,目标检测模型也已广泛用于叶部病害检测。基于 YOLO 的方法、ResNet 架构和专用的 CNN 模型已被用于检测和分类水稻和番茄叶部病害,取得了令人鼓舞的结果 [9, 10, 11, 12]。一些研究比较并组合了多种 CNN 架构以提高准确性,包括 DenseNet、ResNet 变体和基于 SE 的模型 [13]。使用 CNN-SVM 和基于优化的深度学习技术等混合方法也报告了较高的分类性能 [15, 18, 19]。
最近的研究侧重于通过先进的预处理、分割和现代目标检测模型来提高现实世界条件下的鲁棒性。使用基于色调的分割和 YOLOv5 的方法在检测稻瘟病、褐斑病、白叶枯病和纹枯病等常见水稻叶部病害方面表现出了强大的性能 [20, 21, 22]。总体而言,这些研究凸显了深度学习作为农业植物病害检测的实用且可靠解决方案的强大潜力。
1.2. 边界框回归损失的演变
边界框回归 (BBR) 是现代目标检测器中定位的基石。BBR 损失函数的演变已经从简单的几何距离发展到基于复杂指标的惩罚项,旨在缩小训练目标和评估指标之间的差距。
为了清晰地定位所提出的 N−EIoUN-EIoUN−EIoU 损失相对于现有基于 IoU 的回归损失的位置,我们从信号处理的角度提供了一个定性比较,如表 1 所示。与传统的几何比较不同,该分析强调梯度行为、困难样本的信号强度以及边界框维度之间的梯度耦合程度。这样的比较突显了不同的损失公式在优化过程中如何分配回归信号。如表所示,N-EIoU 独特地结合了非单调梯度强调和几何解耦,形成了针对小目标检测的信号感知设计。
表 1: 从信号处理角度对基于 IoU 的边界框回归损失进行定性比较

1.2.1. 从 LnL_{n}Ln-范数到基于度量的损失
像 R-CNN 和 Fast R-CNN 这样的早期检测器使用 LnL_{n}Ln-范数损失(例如,平滑 L1L_{1}L1)来优化预测坐标和真实坐标之间的偏移。然而,这些损失将四个坐标 (x,y,w,h)(x, y, w, h)(x,y,w,h) 视为独立变量,忽略了边界框固有的几何相关性。为了解决这个问题,引入了交并比 (IoU) 损失,将边界框作为一个统一实体进行优化,并实现了尺度不变性。尽管其理论优雅,但当边界框不重叠时 (IoU=0)(IoU = 0)(IoU=0),标准 IoU 存在"梯度消失"问题。随后的变体,如广义 IoU (GIoU) 和距离 IoU (DIoU),分别引入了基于最小外接矩形和中心点距离的惩罚项,以维持梯度流。
1.2.2. 新兴趋势:信号感知梯度重塑
最近的进展已从纯粹的几何约束转向梯度重塑机制。核心思想是根据样本难度动态重新加权回归信号。
- Focal Loss 的启示:受分类中 Focal Loss 的启发,像 Focal-EIoU 这样的方法试图为高质量锚点分配更大的梯度,以细化定位精度。
- N-IoU 和非单调聚焦 :最近,[] 引入了 N-IoU,利用 Dice 系数逻辑重塑梯度曲线。与提供线性梯度的标准 IoU 不同,N-IoU 生成一个非单调曲线,显著放大了低重叠样本 (0.1<IoU<0.4)(0.1 < IoU < 0.4)(0.1<IoU<0.4) 的梯度。这一特性对于检测小病害病斑(困难样本)尤其关键,因为标准损失在此情况下提供的监督信号较弱。
在本工作中,我们将 EIoU 的几何解耦和 N-IoU 的信号放大能力综合到一个统一框架中,称为 N-EIoU,专门解决水稻叶部病害检测中的定位挑战。

本研究不深入探讨稻瘟病菌 (Magnaporthe oryzae) 或稻长蠕孢 (Bipolaris oryzae) 等病原体的生物学病理,而是关注阻碍自动检测性能的特定视觉特征。我们针对越南四种流行的水稻病害:稻瘟病、褐斑病、卷叶螟病和黄矮病,以及健康叶片。从信号处理和目标检测的角度来看,这些类别呈现出两种不同层次的难度:
-
小目标和低对比度目标(困难样本):稻瘟病和褐斑病通常表现为微小的坏死病斑(通常占据图像面积不到 5%)。这些病斑与土壤飞溅、碎片或虫咬等背景噪声表现出高度的视觉相似性,导致严重的视觉模糊性。由于监督信号弱以及在交并比 (IoU) 较低时的梯度消失问题,标准损失函数(例如,CIoU)常常难以处理这些"困难样本"。
-
形态和色彩形变:卷叶螟病的特点是叶片纵向发白条纹和叶片物理折叠(形态变化),而黄矮病则表现为整个叶片的明显变色(色彩变化)。虽然这些特征更显著,但要求模型对不同光照条件和几何畸变具有鲁棒性。这些多尺度目标------从微观斑点到整个叶片变色------的共存对边界框回归提出了重大挑战,需要一种能够重新加权梯度以优先处理困难的小尺度病斑的损失函数。
2. 方法论
我们构建了 DUNG BK65 水稻叶部病害数据集,包含从越南农业大学 (VNUA) 田间直接采集的 5,908 张图像。所提数据集中的所有图像均由越南农业大学的专家直接审阅和验证。数据集包括四个病害类别(稻瘟病、褐斑病、卷叶螟病、黄矮病)和健康叶片。从计算机视觉的角度来看,这些类别呈现出两种不同层次的难度:
- 小目标和低对比度目标(困难样本):稻瘟病和褐斑病通常表现为微小、坏死的病斑,与背景噪声高度相似。由于监督信号弱,标准损失函数通常难以处理这些"困难样本"。
- 形态和色彩形变:卷叶螟病和黄矮病涉及显著的形状和颜色变化。
2.0.1. 最先进的 CIoU 的局限性
包括基线 YOLOv9 在内的最先进目标检测器,通常使用 CIoU(完全交并比)损失进行边界框回归。CIoU 损失定义为:
LCIoU=1−IoU+ρ2(b,bgt)c2+αv\mathcal{L}_{CIoU} = 1 - IoU + \frac{\rho^{2}(\mathbf{b},\mathbf{b}^{gt})}{c^{2}} + \alpha vLCIoU=1−IoU+c2ρ2(b,bgt)+αv
其中 ρ\rhoρ 表示中心点之间的欧几里得距离,ccc 是最小外接矩形的对角线长度,αv\alpha vαv 是纵横比惩罚项。虽然 CIoU 考虑了重叠度、距离和纵横比,但当应用于小型农业病斑检测时,我们发现了三个关键限制:
- 纵横比惩罚的模糊性 :项 vvv 衡量的是纵横比的一致性,而不是维度的实际偏差。正如 Zhang 等人 [EIoU 论文] 所指出的,如果预测框的宽度和高度与真实框成比例缩放(即 {w=k⋅wgt,h=k⋅hgt∣k≠1}\{w=k\cdot w^{gt}, h=k\cdot h^{gt}|k\neq1\}{w=k⋅wgt,h=k⋅hgt∣k=1}),那么惩罚项 vvv 将变为零,尽管存在定位误差。这使得损失函数对尺度差异不敏感,这对于估计像稻瘟病这样可变病斑的精确尺寸是有害的。
- 梯度冲突("跷跷板"效应) :vvv 关于宽度 (w)(w)(w) 和高度 (h)(h)(h) 的梯度是反相关的:∂v∂w=−hw∂v∂h\frac{\partial v}{\partial w} = -\frac{h}{w} \frac{\partial v}{\partial h}∂w∂v=−wh∂h∂v。这意味着在反向传播过程中,如果梯度更新促使宽度增加,它们会同时迫使高度减小。这种冲突的优化在需要同时调整两个维度以拟合目标时,产生了"跷跷板"效应,阻碍了收敛速度。
- 对困难样本的弱监督 :从信号处理的角度来看,CIoU 继承了标准 IoU 的线性梯度行为。正如 N-IoU 理论 [Su 等人] 所分析的,对于"困难样本"(IoU 重叠度低的小病斑,例如 <0.3<0.3<0.3),梯度信号的大小相对较弱。在我们以小型褐斑病病斑为主的水稻病害数据集中,这导致了"梯度消失"问题,使得模型优先处理更容易、更大的目标,而忽略了困难的目标。
2.1. 提出的 N-EIoU 损失函数
我们将边界框回归 (BBR) 表述为一个信号优化问题。提出的 N-EIoU 损失结合了 N-IoU 的聚焦机制和 EIoU 的几何效率:
LN-EIoU=LN-IoU+Ldis+Lasp\mathcal{L}{N\text{-}EIoU} = \mathcal{L}{N\text{-}IoU} + \mathcal{L}{dis} + \mathcal{L}{asp}LN-EIoU=LN-IoU+Ldis+Lasp
2.1.1. 通过 N-IoU 进行信号放大
为了解决小病斑(低 IoU)的梯度消失问题,我们用 N-IoU [] 替换了标准的 IoU 项:
LN-IoU=1−I+nIU+nI\mathcal{L}_{N\textrm{-}IoU} = 1 - \frac{I + nI}{U + nI}LN-IoU=1−U+nII+nI
其中 III 是交集面积,UUU 是并集面积,nnn 是一个超参数(设为 n=9n = 9n=9)。与呈线性的标准 IoU 不同,N-IoU 创建了一个非单调梯度曲线。当 IoU 较低时 (0.1−0.4)(0.1-0.4)(0.1−0.4),它提供较高的梯度增益,有效地放大了小型、未对齐边界框(困难样本)的学习信号。
2.1.2. 通过 EIoU 进行几何解耦
为了消除 CIoU 纵横比惩罚中冲突的梯度,我们采用了来自 EIoU 的分离维度惩罚 []:
Ldis=ρ2(b,bgt)c2,Lasp=ρ2(w,wgt)Cw2+ρ2(h,hgt)Ch2\mathcal{L}{dis} = \frac{\rho^{2}(b,b^{gt})}{c^{2}}, \quad \mathcal{L}{asp} = \frac{\rho^{2}(w,w^{gt})}{C_{w}^{2}} + \frac{\rho^{2}(h,h^{gt})}{C_{h}^{2}}Ldis=c2ρ2(b,bgt),Lasp=Cw2ρ2(w,wgt)+Ch2ρ2(h,hgt)
在这里,我们独立地最小化 (w−wgt)2(w-w^{gt})^{2}(w−wgt)2 和 (h−hgt)2(h-h^{gt})^{2}(h−hgt)2。这使得模型能够精确细化边界框边界,而不会出现 CIoU 中观察到的"跷跷板"效应。
2.1.3. 理论解释
从信号处理的角度来看,N-EIoU 可以解释为一种梯度重塑机制。N-IoU 组件动态地放大了低重叠样本的回归梯度,有效地充当了弱定位信号的非线性强调滤波器。同时,EIoU 项解耦了宽度和高度误差,减少了优化过程中的梯度干扰。这种组合产生了更稳定和更具区分性的回归信号,这对于噪声背景下的小目标检测尤其有益。
2.1.4. N-EIoU 作为一种梯度信号滤波机制
从信号处理的角度来看,交并比 (IoU) 与梯度大小之间的映射可以看作是一种信号滤波机制,它控制着回归能量在不同难度样本间的分布。在传统的基于 IoU 的损失中,如 CIoU,梯度大小随着 IoU 变小而单调下降,导致低重叠的困难样本在优化过程中接收到的纠正信号较弱。
相比之下,N-IoU 引入了一种非单调梯度强调,选择性地放大了低 IoU 区域的回归信号。基于这一思想,N-EIoU 进一步集成了宽度和高度误差的正交分解,使得困难样本能够产生强烈的梯度响应,同时减轻跨维度的梯度干扰。这种信号感知的公式为后续实验中观察到的收敛稳定性改善和定位精度提高提供了清晰的解释。
2.2. 用于边缘推理的轻量化 YOLOv9t
我们选择 YOLOv9t(Tiny 版本)进行本研究。YOLOv9t 拥有大约 200 万个参数,代表了推理延迟和检测性能之间的最优权衡。为了减轻轻量化模型中固有的"信息瓶颈",YOLOv9 采用了可编程梯度信息 (PGI) 和 GELAN 块。PGI 为所有层提供可靠的梯度信息以更新权重,确保深层特征保留小型病斑(如稻瘟病)的关键像素级细节,而这些细节在标准 CNN 中常常丢失。

图 3: YOLOv9 结构
3. 实验与分析
3.1. 梯度仿真
受表 1 中定性比较的启发,我们进一步分析了代表性基于 IoU 损失的梯度响应特性。图 4 展示了梯度大小作为 IoU 的函数,定量地揭示了不同损失公式如何在不同难度样本间重新分配回归信号。
为了验证 N-EIoU 在无噪声环境下的理论优势,我们遵循 [] 中提出的分析协议,进行了受控的梯度仿真实验,从而分离出损失函数固有的梯度行为。该仿真获得的梯度大小响应总结在图 5 中,表征了低 IoU 区域损失特定的信号放大行为。

图 4: 基于 IoU 损失的梯度响应曲线

图 5: 梯度大小比较:N-EIoU 在低 IoU 区间 (\<0.4) 产生更大的梯度,放大了困难样本的信号。
如图 5 所示,N-EIoU 表现出一种非单调梯度响应,在低 IoU 区域达到峰值,有效地在优化过程中强调了"困难样本"。与传统的基于 IoU 的损失(其梯度大小随 IoU 减小而单调衰减)不同,N-EIoU 将梯度能量重新分配向低重叠的预测,防止了过早的梯度衰减。这种行为在训练早期阶段特别有益,因为此时不准确的定位占主导地位,有效的梯度信号对于收敛至关重要。此外,N-EIoU 引入的受控梯度塑造避免在高 IoU 区域过度放大,从而在提高对小目标和模糊目标的定位敏感性的同时,保持优化稳定性。
3.2. 水稻病害的实证结果
我们在 DUNG_BK65 数据集上训练模型 200 个周期(SGD 优化器,动量 0.937)。表 2 比较了性能。
表 2: 在 DUNG BK65 数据集上的比较性能

困难样本分析 :N-EIoU 最显著的影响体现在褐斑病类别上,其 mAP 从 84.0% (CIoU) 提高到 89.5% (N-EIoU)。褐斑病病斑由于其小尺寸和低对比度而 notoriously 难以检测。这一经验性增益 (+5.5%)(+5.5\%)(+5.5%) 与我们的理论梯度分析完全吻合。
如图 6 中的混淆矩阵所示,该模型在健康叶片、黄矮病和卷叶螟病类别上表现出稳健的检测性能。相比之下,褐斑病和稻瘟病的检测率较低,且经常被误分类为背景。这种局限性很大程度上归因于这两种病害的视觉特征,特别是其病斑尺寸小,使得它们难以与背景区分开。
图中展示的精确率-召回率曲线全面评估了模型在五个不同类别上的性能,整体平均精度均值 (mAP@0.5) 为 0.903。该模型在检测健康叶片 (AP=0.995)\left(AP=0.995\right)(AP=0.995)、黄矮病 (AP=0.987)\left(AP=0.987\right)(AP=0.987) 和卷叶螟病 (AP=0.968)\left(AP=0.968\right)(AP=0.968) 方面表现出卓越的准确性。这些类别的曲线保持靠近右上角,表明即使召回率提高,模型也能保持高精确率。换句话说,系统在识别这些类别时高度可靠,误报或漏检非常少。然而,对于稻瘟病 (AP=0.811)\left(AP=0.811\right)(AP=0.811),特别是褐斑病 (AP=0.754)\left(AP=0.754\right)(AP=0.754),观察到明显的性能下降。这两种病害的曲线随着召回率的提高下降得更快。这一趋势表明,虽然模型可以检测到这些病害最明显的实例,但很难在不牺牲精确率的情况下识别更细微的病例。这种困难很可能归因于褐斑病和稻瘟病的视觉特性,它们通常表现为小而模糊的病斑,很容易与背景噪声或其他叶片瑕疵混淆。

图 6: N-EIoU 的混淆矩阵

图 7: N-EIoU 的 P-R 曲线
3.3. 应用部署
为了部署我们提出的模型,我们将其实现为一个运行在智能手机上的移动应用程序。开发过程使用 Android Studio [51] 进行编码和设计。我们还使用 TensorFlow Lite [52] 来执行深度学习模型。考虑到移动设备典型的资源限制,我们选择了 YOLOv9t------YOLOv9 架构中最轻量的版本------以平衡性能与效率。模型被量化为 Float16 并使用 TensorFlow Lite 部署在 Android 设备(VSmart Active 3)上。量化后的模型保持了 90.2% 的 mAP(仅下降 0.1%),同时实现了平均 156 毫秒的推理延迟。这证明了用于离线田间实际应用的可行性。

图 8: 推理与应用结果
4. 讨论
本工作的独创性不在于引入一个全新的损失范式,而在于将边界框回归重新表述为一个信号感知的优化问题,其中梯度的大小和方向被显式地塑造以有利于困难的、低重叠的样本。从数字信号处理的角度来看,这种重新表述提供了一种原则性解释,说明回归能量在训练期间是如何被重新分配的,而不仅仅依赖于几何启发式方法。这种以信号为中心的观点有助于解释在定量指标和按类别检测结果中观察到的性能提升。本研究的主要目标是提高轻量化 YOLOv9t 模型用于基于移动设备的水稻病害诊断的精度。如表 2 所示,我们提出的 N-EIoU 损失函数的集成产生了 90.3% 的平均精度均值 (mAP@50),相对于基线 CIoU 损失 (86.0%) 有显著提升,提高了 4.3%。此外,F1 分数从 0.854 提高到 0.880,表明精确率和召回率之间更稳健的平衡。
这种性能提升可归因于 N-EIoU 的协同设计。标准的 CIoU 损失依赖于纵横比惩罚 (v)(v)(v),当预测框的宽度和高度与真实框不同但纵横比相似时,该惩罚变得无效。我们提出的损失通过结合 EIoU 的显式几何惩罚(直接最小化宽度和高度差异)[45] 来缓解这个问题。同时,源自 Dice 系数 [43] 的 N-IoU 组件充当了动态加权机制。它放大了低重叠样本的梯度信号,有效地迫使模型在回归阶段专注于"困难样本"。这在 mAP@50-95 的提高(从 42.9% 到 48.9%)中尤为明显,表明 N-EIoU 比基线产生了更紧密、更准确的边界框。
4.1. 按类别的检测能力
分析类别特异性性能揭示了不同病害类型之间的不同行为。该模型对黄矮病 (mAP 98.7%) 和卷叶螟病 (mAP 96.8%) 取得了极高的准确性。这些病害通常表现为叶片的大范围、明显的变色或物理变形,为 CNN 主干网络提供了强大的特征图。
相反,褐斑病和稻瘟病被证明更具挑战性,其平均精度 (AP) 分数分别为 75.4% 和 81.1%。这与相关文献 [9] 的发现一致,即小型、不规则的坏死病斑常常与背景噪声(土壤、碎片)或其他类似的真菌感染混淆。然而,关键的是要注意,虽然这些分数低于结构性病害,但与 CIoU 相比,N-EIoU 的应用在这些类别上提供了最显著的相对增益。这证实了我们的假设,即 N-IoU 组件的"困难样本挖掘"特性有助于网络在小型、难以定位的病斑上更好地收敛。
4.2. 移动部署的可行性
本工作的一个关键贡献是使用 TensorFlow Lite 成功地将模型部署到 Android 设备上。通过采用 Float16 量化,我们显著减小了模型大小,同时保持了可忽略不计的准确率下降(mAP@50 仅从 90.3% 降至 90.2%)。
在中端智能手机(VSmart Active 3)上的推理速度记录在 156 毫秒到 171 毫秒之间(约 6 FPS)。虽然这尚未达到高速实时视频处理(>24 FPS)的严格阈值,但对于农民在田间拍摄静态照片或扫描叶片的实际用例来说完全足够。与 YOLOv9c 或 YOLOv9e 等更重的架构相比,YOLOv9t 主干网络为边缘设备提供了计算成本和检测精度之间的最佳权衡。
4.3. 局限性与未来工作
尽管结果令人鼓舞,但一些局限性仍然存在。首先,该模型在分析带有泥土或泥浆飞溅的叶片时,偶尔会对褐斑病表现出误报,表明训练集中需要更多样化的背景。其次,目前 6 FPS 的帧率限制了用户在快速扫描大田时的体验。第三,虽然 Float16 量化是稳定的,但 Int8 量化在 Android 环境中导致了不稳定性;解决这个问题可能会使推理速度翻倍。
未来的研究将集中于扩展 DUNG_BK65 数据集,以包括在极端光照条件下(例如,阴天、黎明/黄昏)捕获的图像,从而提高鲁棒性。此外,我们旨在研究模型剪枝技术,以进一步压缩网络,目标是在移动硬件上实现 >15 FPS,同时不损害 N-EIoU 损失所达到的高精度。
5. 结论
本文介绍了一种基于 YOLOv9t 架构的增强目标检测框架,专门优化用于在资源受限的移动设备上识别水稻叶部病害。通过用提出的 N-EIoU 损失函数替换标准的 CIoU 损失,我们成功地解决了边界框回归的几何限制以及农业数据集中固有的类别不平衡问题。
在自采集的 DUNG_BK65 水稻叶部病害数据集(5,908 张图像)上的实验结果表明,所提出的 N−EIoU−YOLOv9tN-EIoU-YOLOv9tN−EIoU−YOLOv9t 模型实现了 90.3% 的平均精度均值 (mAP@50)。这代表着相对于使用 CIoU 损失的基线模型 (86.0%) 有 4.3% 的显著改善,并且优于其他损失变体,如 EIoU 和 Alpha-CIoU。值得注意的是,该方法在检测具有小病斑区域的"困难样本"(如褐斑病和早期稻瘟病)方面显示出显著增益。
此外,我们通过将优化后的模型部署在定制的 Android 应用程序上,弥合了理论研究与实际应用之间的差距。通过 TensorFlow Lite 的 Float16 量化,系统在智能手机上实现了平均约 156 毫秒每帧(~6 FPS)的稳定推理速度。虽然这一帧率尚未达到高速实时标准,但对于农民进行田间诊断来说已经足够,为病害管理提供了一个可访问的离线解决方案。
未来的工作将集中在三个关键领域:(1) 扩展数据集以包含更多样化的天气条件和病害阶段,提高对背景噪声的鲁棒性;(2) 应用先进的模型压缩技术,如剪枝和整数量化 (Int8),在不影响精度的情况下进一步降低延迟;(3) 扩展系统以支持 iOS 平台和基于视频的实时监测。
致谢
本研究由河内科学技术大学 (HUST) 资助,项目编号 T2023-TD-012。作者感谢河内科学技术大学 (HUST) 电气与电子工程学院的支持。我们也感谢越南农业大学的专家在数据验证方面的帮助。