导读
本文提出一种 " DSCAM-**增强 GoogLeNet 检测"策略,将传统 GoogLeNet 模型无损替换为融合颜色注意力机制的改进版本**,既保持了与原始架构及高效推理速度的兼容性,又显著提升了对稻瘟病颜色特征的识别能力。在保留模型轻量化优势的同时,实现了稻瘟病四级分级检测精确率提升至 84.23%,有效解决了无人机图像中病斑细节模糊、识别准确率低等问题,为水稻病害抗性筛选和农业智能监测提供了更高分辨率的深度学习解法。
中国是水稻种植大国,水稻在农业生产和粮食供应中占据着举足轻重的地位。然而,水稻种植过程中常常受到各种病虫害的威胁,稻瘟病被誉为水稻的"重大威胁",导致水稻产量显著减少,极端情况下甚至引发绝收,是水稻种植业面临的最严峻病害之一。全球范围内,稻瘟病每年导致的产量损失极为显著,损失量约占水稻总产量的10%。在中国,各个稻区均容易遭受稻瘟病的侵袭,其中约300万t的稻谷因此受损。因此,为了保障水稻的稳产高产,同时提高农民的经济收益,研究水稻稻瘟病早期分级检测技术具有重要意义。通过对稻瘟病的早期分级检测,为水稻品种稻瘟病抗逆性的筛选工作提供快捷、科学、准确的依据,对减少农药使用、提高水稻产量和品质以及保护生态环境都有重要意义。
当前,稻瘟病的检测工作主要依赖于人工操作。因其判定标准严格,普通民众难以准确判断,而植保专家与农技人员,则需投入大量时间与精力进行细致分析。随着现代农业的发展,对稻瘟病预测预报的精准度需求日益提升,这促使水稻病害诊断技术亟待创新与优化。

在农业病虫害检测领域,卷积神经网络同样展现出了强大的应用潜力。杨宁等提出了一种利用现场可编程门阵列 (FPGA) 加速的Mask R-CNN 模型,实现了在田间恶劣网络状况下稻瘟病的快速现场检测,不仅提高了检测速度,还增强了模型的泛化能力。本研究基于苗期稻瘟病图像数据集的分级检测为切入点,着重优化GoogLeNet 网络架构,力求在检测精准度与速度间找到最佳平衡点,以满足实际应用中对实时性的要求,以期为开发高效水稻稻瘟病智能分级设备提 供坚实的算法支撑。
材料与方法
- 试验区概况
本试验区选定在湖南省浏阳市东部的大围山水稻种植基地,位于东经11401'~114°12',北纬28°20′~28°28' 之间。该区域地势平坦,水源充沛,气候适宜,为水稻种植提供了得天独厚的自然条件,试验区如图 1 所示。

- 无人机数据采集
试验采用大疆精灵 4 电动四旋翼无人机完成图像数据采集任务,在数据采集点,无人机能够实现定高自动拍摄,通过图像传输模块,研究人员能够实时接收并查看相机传回的图像,从而掌握航拍状态,并及时调整飞行参数或拍摄设置。
在采集RGB图像时,特别关注天气和光照条件,选择晴朗少云的天气以及太阳高度角较高的时间段(即 10:00---14:00)为最佳拍摄时机。由于试验田上方有电线的存在,导致无人机的自动航拍计划受到限制,因此及时调整为手动航拍,由两名研究人员共同完成。拍摄时间为2023年6月12日上午11点至下午1点,共进行了一次拍摄。为确保图像质量和数据的丰富性,航拍高度设定在10~12m 之间,拍照间隔为1 s,共采集到无人机原始航拍图像1,594幅,整个过程耗时3 h,拍摄了115个水稻品种。
- 数据集制作
本研究中,对无人机原始航拍图像的处理主要依赖于 Pix4D 和 MATLAB 两款软件。通过这两个软件的协同工作,成功地完成了从原始航拍照片到模型训练所需数据集的转换。本研究利用 Pix4D 软件对原始航拍图像进行空中三维重建和加密处理。通过设定相机校准参数及地面控制点,自动生成高空间分辨率且准确反映地表信息的 tif 格式正射影像。使用 MATLAB 软件对 Pix4D 生成的 tif 图像进行后续处理,借助 MATLAB 的图像处理工具箱,对图像进行旋转和裁剪操作。由于无人机在高空拍摄时所捕获的图像清晰度有限,且水稻苗本身尺寸较小,若将图像裁剪至 GoogLeNet 所期望的 224×224 像素尺寸,将会导致水稻苗的放大,从而引发图像细节的模糊与失真。因此,在实际操作中,采用了更为灵活的裁剪策略,将图像裁剪为 75×110 像素的尺寸,这样既能确保每株处于分蘖期的水稻得到完整展现,又避免了因过度放大而导致的图像失真问题,使得每个小图像块对应一株水稻的生长区域,从而便于后续对水稻生长状况的识别与分析。将切割出的所有图像块根据行业标准分成健康、轻度、中度及重度稻瘟病四类等级,经过人工标注后投入模型训练中,构建出用于水稻稻瘟病早期分级检测的数据集。如图 2 所示。

- 模型创建
- 改进 GoogLeNet 的水稻稻瘟病分级检测模型
GoogLeNet(又称为 Inception v1)是一种深度卷积神经网络模型,主要应用于图像分类和识别任务,并且在资源受限的环境中易于部署与推理。GoogLeNet 的设计引入了 Inception 结构,这是一种能够并行处理不同尺度特征信息的模块。该模型通过使用 Inception 模块,能够在多个尺寸上同时进行卷积操作,从而更有效地提取图像特征。GoogLeNet 包括输入层、卷积层和池化层、Inception 模块、全局平均池化层、全连接层和Softmax 层 6 个部分。
本研究提出了一种改进的 GoogLeNet 模型,该模型基于 GoogLeNet 架构,并在其 Inception 模块中引入了病斑颜色注意力机制(disease spot color attention mechanism,DSCAM) 。此外,该模型经过了一系列优化,包括对部分网络层的增减或替换,调整 Inception 模块内部结构中卷积核的大小、数量及其连接方式,并尝试了数据增强、迁移学习和早停法等多种训练策略。基于上述改进,最终的网络结构如图 3 所示。

- DSCAM 注意力机制
DSCAM 是一种专注于病斑颜色特征的空间注意力机制,通过捕捉病斑区域的空间特征、分析和学习病斑颜色与周围健康组织颜色之间的差异,自适应调整 图像中不同位置的颜色响应,从而强化模型对病斑颜色信息的敏感度,提升病害识别的准确性。DSCAM 包含两个核心步骤:颜色差异提取(color difference extraction,CDE)和颜色权重分配(color weight assignment, CWA) 。CDE 步骤通过深入分析输入图像,将其转换至特定的颜色空间,以比较病斑区域与周围健康组织的颜色信息,从而计算两者之间的颜色差异。基于这些差异值,CDE 生成了一幅颜色差异图,直观地展示了病斑颜色与背景颜色之间的对比度,为后续分析提供了重要信息。 在 CWA 步骤中,利用 CDE 生成的颜色差异图,通过卷积层进行深入学习,分析每个颜色通道对病斑识别的直接贡献,并评估不同颜色特征之间的相互作用。通过这一过程,CWA 能够动态地为每个颜色特征分配权重,这些权重的分配依据颜色差异图的局部特征和全局特征,以此确保模型能够精准聚焦于病斑的颜色特征。将学习到的权重应用于初步处理的特征图上,进一步强调了病斑的颜色特征,并有效抑制了不相关的背景信息。这不仅增强了网络对病斑的识别能力,还提高了其在复杂背景下的鲁棒性。值得注意的是,CWA 中的权重分配是动态且可学习的,这意味着随着训练的进行,模型能够不断优化其对颜色特征的敏感度和区分能力,从而实现更加精准和高效的病害识别。DSCAM 网络结构如图 4 所示。

本研究选择将 DSCAM 注意力机制融入 GoogLeNet的 Inception 结构中,主要基于以下几点考量:
1)GoogLeNet的 Inception 结构以其多尺度卷积核和高效的特征融合方式而著称,而 DSCAM 注意力机制则专注于病斑颜色的特征提取,将两者结合,可以提升模型对病斑颜色特征的敏感度和捕捉能力,从而增强模型在病害识别任务中的表现。
2)在实际应用中,水稻病害图像往往受到光照、背景、拍摄角度等多种因素的影响,导致图像质量参差不齐。DSCAM 注意力机制通过自适应调整图像中不同位置的颜色响应,能够有效减少这些因素的干扰,提高模型对病害图像的识别鲁棒性。引入 DSCAM 注意力机制的 Inception 模块结构如图 5 所示。

- 改进的 GoogLeNet 模型对图像的特征提取
改进的 GoogLeNet 模型在图像特征提取方面进行了优化,引入了 DSCAM 注意力机制,以此增强模型对病斑颜色信息的敏感性,进而提高病害识别的准确性。具体而言,该模型首先接收固定尺寸的图像作为输入,通过一个 7×7 的初始卷积层对图像的边缘、颜色等低级特征进行初步提取。随后,模型利用批归一化和 ReLU 激活函数进行非线性变换,再通过 3×3 的最大池化层降低特征图的尺寸。为了捕捉多尺度特征,模型堆叠了多个包含 1×1、3×3 和 5×5 卷积核及池化层的 Inception 模块。下一步,模型采用全局平均池化层提取全局特征,该层不使用固定尺寸的卷积核,而是对特征图的每个通道进行全局平均操作。全连接层和 Dropout 层进一步处理特征,最终输出类别概率分布。该模型的优势在于能够进行多尺度特征提取、重新分配颜色权重以及高效利用参数,因而适用于复杂的图像任务和资源受限的环境。特征提取流程如图 6 所示。

模型训练与测试
- 试验平台与训练参数
本试验所使用的计算机处理器型号为 Intel(R)Core(TM) i5-7200 运行系统为 windows 10,深度学习框架为 Pytorch1.10.0,开发环境为 Python 3.10,训练轮数(epoch)设定为 100,每批次(batch size)处理 16 张图片。初始学习率设置为 0.001,以确保模型在训练初期能够稳定学习。
- 性能评估
为了更全面、客观地评估模型的性能,本试验选用了多项评价指标,具体包括:精确率(precision,P)、召回率(recall,R)、F1 得分(F1 score)等。具体计算式表示如下:

- 收敛效果
在模型训练过程中,为了有效评估模型的收敛效果,可以记录每一轮的训练损失和验证损失数据。通过将数据绘制成损失曲线图,可直观呈现损失值变化趋势,助力了解模型学习动态。对比分析训练与验证损失曲线,能及时发现过拟合或欠拟合问题,进而针对性调整学习率、批量大小以及优化算法等参数,以此进一步提升模型的性能。损失值变化曲线如图 7 所示。
结果与分析
- 消融试验
为了定量分析改进策略对模型性能的积极影响,本文设计了消融试验,并将结果汇总于表 1。试验结果表明,DSCAM 的引入显著提升了基线模型的性能。
具体而言,GoogLeNet+DSCAM 模型的召回率较原始GoogLeNet 模型提高了 9.29 个百分点,这一结果验证了DSCAM 注意力机制的有效性,增强了模型捕捉和处理关键信息的能力。

- 其他模型对比试验
为了验证改进 GoogLeNet 在水稻稻瘟病分类任务上的优势,选取了 Alexnet、Resnet、VGG 和原始的 GoogLeNet等几种广泛使用的分类模型作为对比基准。利用已构建完备的水稻稻瘟病数据集对这些模型进行了全面的训练,并在独立的测试集上进行了性能评估。试验结果如表 2 所示。

这些显著的性能提升充分证明了改进策略的有效性。为进一步探讨模型性能的提升效果,研究还对比了特征热力激活图,结果显示优化后的模型能够更好地关注给定图像中的病害特征。对比结果如图 8 所示。

相较于 AlexNet、ResNet 和 VGG 模型,本研究所采用的 GoogLeNet 模型在稻瘟病检测方面展现出显著的优势。该模型不仅能够准确地对稻瘟病进行分级,其置信度也明显高于其他模型,这主要归功于 GoogLeNet 中引入的DSCAM注意力机制。尽管 GoogLeNet 模型通过多尺度卷积和高效特征融合实现了图像深度表征,但对病斑颜色等关键特征的敏感性仍存在一定的局限性。引入的 DSCAM 注意力机制有效弥补了传统 GoogLeNet 模型在病斑颜色敏感度上的不足,通过对原始图像的颜色差异进行提取和颜色权重的重新分配,不仅增强了模型对病斑颜色的敏感性,还提升了其在复杂背景中捕捉病害特征的能力。这一改进使得GoogLeNet 模型在稻瘟病图像检测任务中表现优异,尤其是在区分轻度、中度、重度稻瘟病及健康水稻图像时,展现出极高的准确性和稳定性。检测效果如图 9 所示。

结论
本研究对 GoogLeNet 的网络结构进行了改进,引入了 DSCAM 模块来提高模型对于稻瘟病特征的关注度。 试验结果表明,改进后的 GoogLeNet 模型显著提升了水稻稻瘟病检测的准确性,精确率相较于原始模型提升了15.33 个百分点,同时保持了高效的推理速度,达到了101.79 帧 /s。 与当前流行的 AlexNet、 ResNet、 VGG等分类模型进行横向对比,本研究提出的改进 GoogLeNet 模型在稻瘟病分类任务中展现出了最优性能,尤其在精确率指标上优势显著,达到了 84.23%,明显优于对比模型,可为水稻稻瘟病抗逆性品种筛选提供参考。