介绍
论文地址:https://arxiv.org/abs/2404.03611
害虫分类是农业中的一个重要问题。准确识别有害害虫可减少对作物的损害,确保粮食安全和环境的可持续发展。然而,害虫及其自然环境的高度拟态性和物种多样性使得视觉特征的提取极具挑战性。现有方法很难提取出区分近缘害虫物种所需的细节特征。即使采用了最先进的深度学习方法,由于害虫与背景之间存在很大的相似性,挑战依然存在。在此背景下,亟需开发更有效的害虫分类模型。
拟议方法(InsectMamba)
InsectMamba 的核心 "Mix-SSM 块 "是一种巧妙结合了四种视觉编码方法的结构。具体来说是:
状态空间模型(SSM):能有效地模拟随时间变化的视觉特征。善于捕捉长程依赖关系。
卷积神经网络(CNN):提取局部视觉特征的绝佳工具。
-
多头自我关注(MSA):可捕捉全局上下文信息,补充 CNN 的不足。
-
多层感知器(MLP):可有效提取信道方向的特征。
通过结合这四种方法的特点,InsectMamba 能够从多个角度捕捉害虫的视觉特征。
此外,所提出的 "选择性模块 "能自适应地整合通过这些编码方法获得的特征表征。通过动态分配每个通道的重要性,可以有效地模拟害虫特征。
因此,InsectMamba 的创新设计为害虫分类难题提供了全面的解决方案。
试验
本文利用五个昆虫危害分类数据集对 InsectMamba 的性能进行了评估。之所以选择这些数据集,是因为它们的昆虫和背景视觉相似度高,物种多样性大,这使得昆虫损伤分类具有挑战性。具体数据集包括
-
农场昆虫:包括 15 种害虫,有 1 368 个训练数据和 160 个测试数据。
-
农业害虫:包括 12 种农业害虫,有 240 个训练数据和 5 254 个测试数据。
-
昆虫识别:包括 24 种昆虫,有 768 个训练数据和 612 个测试数据。
-
林业害虫识别:包括 31 种害虫,599 个训练数据和 6,564 个测试数据。
-
IP102:包括 102 种害虫,1,909 个训练数据和 65,805 个测试数据。
利用这些具有挑战性的数据集,InsectMamba 的性能与现有的强大模型(ResNet、DeiT、Swin Transformer 和 Vmamba)进行了对比评估。结果表明,InsectMamba 在所有指标(准确度、精确度、召回率和 F1 分数)上都表现最佳。
尤其值得一提的是图 3 所示的特征整合方法对比实验。在这里,建议的 "选择性模块 "表现最佳,证明了自适应特征整合的重要性。
此外,图 4 还研究了选择性模块卷积核大小的影响:对于农场昆虫数据集,3x3 的结果最佳,而对于 IP102,1x1 的结果最佳。这表明,根据数据集的特点选择适当的核大小非常重要。
而消融实验的结果表明,Mix-SSM 模块中的 SSM、CNN、MSA 和 MLP 每个组件都做出了独特的贡献。这些结果表明,InsectMamba 可以为昆虫害虫分类的挑战提供最有效的解决方案。
结论
本研究提出了一个新模型--InsectMamba,以应对昆虫伤害分类的挑战;InsectMamba 是一个创新的架构,结合了多种视觉编码方法。
实验结果表明,InsectMamba 在五个具有挑战性的昆虫害虫分类数据集上表现出色,明显优于现有的强大模型。此外,通过消融实验,可以清楚地看到,所提出方法的每个要素都有其独特的贡献。分析详细考察了特征整合方法和卷积核大小优化等关键设计方面,结果证明了 InsectMamba 的高度通用性和实用性。
展望未来,重要的是通过在更大的数据集和真实世界环境中进行评估,进一步验证 InsectMamba 的实用性。此外,还将努力实现实际应用,例如研究在硬件限制条件下的高效实施方法。这项研究的成果将为昆虫控制自动化和实现智能农业做出重大贡献。