原文:
主要发现是什么?
•回顾了深度学习技术在监测和预测苹果病虫害、器官生长、产量和缺陷方面的应用。
•回顾了近7年的100多篇文献。
•总结了各部分相关文献的现状,并提出了解决问题的方法。
主要发现的含义是什么?
•为未来的研究提供了参考,带动了智慧果园的发展。
摘要:
苹果的高营养和药用价值促成了它们在世界范围内的广泛种植。树木健康生长中的不利因素和广泛的果园工作正在威胁苹果的盈利能力。这项研究回顾了过去七年来深度学习结合计算机视觉用于监测苹果树生长和水果生产过程。三种类型的深度学习模型用于实时目标识别任务:检测模型包括YOLO和更快的基于区域的卷积网络(更快的R-CNN);分类模型包括Alex网络(AlexNet)和残差网络(ResNet);分割模型包括分割网络(SegNet)和Mask区域卷积神经网络(Mask R-CNN)。这些模型已成功应用于检测病虫害(位于叶子、果实和树干上)、器官生长(包括果实、苹果花和树枝)、产量和采后果实缺陷。这项研究介绍了深度学习和计算机视觉方法,概述了当前对这些方法用于苹果树生长和水果生产的研究。讨论了深度学习的优缺点,总结了面临的困难和未来的趋势。相信该研究对智慧苹果园的建设具有重要意义。
目录
[1. 多器官检测的价值](#1. 多器官检测的价值)
[2. 多模态数据的力量](#2. 多模态数据的力量)
[3. 模型效率与实时性能](#3. 模型效率与实时性能)
[4. 应对环境挑战](#4. 应对环境挑战)
[5. 未来发展方向](#5. 未来发展方向)
[1. 从"检测"到"计数"的飞跃](#1. 从“检测”到“计数”的飞跃)
[2. 数据与评估的挑战](#2. 数据与评估的挑战)
[3. 动态产量预测与物联网融合](#3. 动态产量预测与物联网融合)
[1. 表面与内部缺陷的二元性](#1. 表面与内部缺陷的二元性)
[2. 小样本学习的重要性](#2. 小样本学习的重要性)
[3. 模型的实用性与可扩展性](#3. 模型的实用性与可扩展性)
主要内容:
将深度学习和计算机视觉技术应用于苹果园自动化管理,以解决传统方法在效率、鲁棒性和实时性方面的不足。

图1。基于深度学习和计算机视觉技术监测苹果树生长和果实产量的文献检索综述。
-
背景与动机: 苹果是重要的经济作物,但传统的果园管理方式效率低下,无法满足大规模生产的需求。深度学习的出现为解决这一问题提供了可能。
-
**方法论(图1"Methodology"部分):**详细介绍了实现目标检测的方法和技术路径:
-
可用数据集(Available datasets): 目标检测的对象非常广泛,包括害虫、病害、果实、树叶、树干、花朵、枝干以及果实缺陷等。这表明农业目标检测的应用场景非常多样化。
-
图像类型(Image type): 除了常见的RGB图像,文章还提到了高光谱、红外等多种成像技术。这很重要,因为不同的成像技术可以提供不同的信息,例如高光谱图像可以捕捉到人眼不可见的早期病害信息,红外图像可以用于夜间或光照不足的情况。
-
图像增强(Image enhancement): 在数据预处理阶段,可以通过旋转、裁剪、翻转、模糊等方式增加数据的多样性,提高模型的泛化能力。这是深度学习训练中非常重要的一步。
-
制作数据集(Making dataset): 强调了数据标注和数据集划分的重要性。高质量的标注是模型训练的基础。
-
深度学习模型(Deep learning model): 提到了模型的构建、训练和评估。这是一个完整的模型开发流程。
-
-
面临的挑战(图1"Challenge"部分): 文章也指出了当前技术面临的难点,这对于我们进一步研究非常有指导意义:
-
后向应用方法(Backward application method): 这可能指的是如何将模型推理结果有效地反馈到实际的农业操作中,比如如何根据检测到的病害自动喷洒农药。这涉及到硬件集成和系统联动。
-
图像采集难度(Image acquisition difficulty): 户外环境复杂多变,光照、遮挡、天气等因素都会影响图像质量,导致模型性能下降。
-
实时检测限制(Real time detection limitation)和高计算时间(High computation time): 尽管深度学习比传统方法快,但在大规模、高分辨率图像上进行实时推理仍然面临挑战,需要更轻量化的模型和更强大的计算硬件。
-
-
具体应用场景(Section 4): 文章详细列举了深度学习在苹果园中的具体应用,如害虫检测、病害检测、器官生长检测、产量预测和采后缺陷检测等。这为我们提供了具体的研究方向。
概述了深度学习结合计算机视觉技术在五个领域的应用------害虫检测、疾病检测、器官生长检测、产量预测和收获后缺陷检测------并总结了每个领域的研究现状。
害虫检测
-
问题背景: 传统的害虫监测主要依靠人工,效率低且成本高。深度学习以其强大的特征提取能力,为实现实时、自动化的害虫检测提供了新的解决方案。
-
研究现状: 文章回顾了多项研究,展示了在苹果害虫识别方面取得的进展(如表1所示)。研究者们尝试了多种深度学习模型,例如AlexNet、LeNet、VGG16、MobileNetV2、EfficientDet 以及基于YOLOv5 的改进模型。这些研究通常使用RGB图像作为输入,并在各自的数据集上取得了不错的识别精度。
表1。深度学习结合计算机视觉在苹果害虫识别中的应用综述。
-
关键技术与模型:
-
轻量化模型: 文章特别提到 MobileNetV2 等轻量化模型,这些模型在参数量更少的情况下仍能达到较高的精度。这对于将模型部署到田间设备(如图2(b)所示的PMD,即害虫监测设备)上至关重要,因为这些设备通常计算资源有限。
-
模型改进: 研究者们对经典模型进行了改进,例如在MobileNetV2中引入双注意力机制 ,或者在YOLOv5中用MTSPPF替代SPPF并引入ECA(高效通道注意力)模块,以提升性能并减少模型体积。
-
多目标检测与实例分割: 文章还提及了用于解决害虫黏连问题的GMM-DC 和改进的Mask R-CNN 模型。这表明,当多个害虫黏在一起时,仅仅进行分类或目标框检测是不够的,还需要更精细的实例分割技术来识别每一个独立的个体。
-
-
实际应用: 文中不仅提到了模型算法,还展示了实际的害虫监测设备(PMD) ,该设备能够自动捕捉图像并进行实时害虫识别和计数。这表明该技术已经从实验室研究走向了实际应用。
图2。害虫识别的PMD。(a)EfficientDet神经网络的结构。(b)PMD。(c)PMD模型的自动计数结果(红色边界框-检测类malifoliella,绿色边界框-检测类其他昆虫)
-
面临的挑战: 尽管取得了显著进展,但该领域仍存在挑战:
-
算法陈旧: 文章指出,目前研究中使用的算法相对较旧,一些新兴技术(如对比学习、Vision Transformer(ViT))应用较少。
-
数据采集困难: 害虫具有季节性和随机性,导致高质量、多样化的图像数据集难以获取。这阻碍了模型的泛化能力和实际应用。
-
疾病检测
表2.深度学习结合计算机视觉进行疾病检测综述。

-
病害检测的重要性:病害是导致苹果减产的主要原因。通过计算机视觉技术实现病害的及时、准确识别,是精准施肥、用药,确保果树健康生长的关键。
-
深度学习的应用优势 :文章指出,传统的图像处理技术在复杂背景和光照下难以精确分类病害。而深度学习(特别是卷积神经网络 DCNN 和YOLO 系列模型)能够自动学习并提取高层次的特征,从而实现高精度的自动分类。
-
多样的研究对象和模型:
-
检测部位 :研究对象不仅限于苹果叶片,还包括果实 和树干,尽管后两者的研究相对较少,主要受限于数据集的稀缺性。
-
模型选择 :研究人员尝试了多种模型,如 YOLOv3、YOLOv5 等目标检测模型,以及 VGG19、ResNeXt 等分类模型,甚至还有 Vision Transformer (ViT) 这类新兴模型。这表明该领域正在积极探索不同的技术路径。
-
-
模型改进与创新:为了提高模型的性能和适用性,研究者们进行了多种创新:
-
数据增强 :使用 CycleGAN 或 DCGAN 等生成对抗网络来扩充病害数据集,解决数据不足的问题。
-
模型融合与优化 :引入 注意力机制(CBAM、EMA)、改进网络结构(如在YOLOv5中融合Transformer),以增强模型对病害特征的捕捉能力。
-
轻量化与部署 :文章多次提到将模型部署到移动设备 上,并采用 TFLite 等轻量化方案,这正是将技术从实验室推向实际应用的关键步骤。
-
解决数据不平衡问题 :采用 focal loss 等方法,以应对数据集中不同病害样本数量不平衡的问题。
-
-
半监督学习的探索 :文章提到,PSPNet-SA 等半监督学习方法能够仅用少量标注数据就达到很高的识别精度,这为解决数据标注成本高昂的问题提供了有效途径。
高精度背后的考量 :表2中的许多模型精度都非常高,有的甚至达到99%以上。这固然令人振奋,但我们必须清醒地认识到,这些结果可能是在特定、且相对受控的数据集 上获得的。在真实的果园环境中,存在复杂的背景、多变的阳光、风吹动的叶片以及多种病害同时出现的情况。因此,**模型的泛化能力(generalization ability)和鲁棒性(robustness)**比单一的准确率指标更为重要。
目标检测与实例分割的结合 :文章提到了YOLOv5和实例分割。这两种技术在实际应用中各有侧重。YOLOv5等目标检测模型能够快速框出病害区域,适用于实时预警。而实例分割,如 Mask R-CNN,则可以像素级地分割出病斑,这对于量化病害严重程度、指导精准施药具有更高的价值。未来的研究应探索如何将两者结合,实现更全面的病害分析。
Transformer 的潜力与挑战 :文章提到了 Vision Transformer (ViT) 的应用。 相比于传统的CNN,Transformer 能够更好地捕捉图像的全局信息和长距离
依赖关系,这对于识别那些病斑分散、特征不明显的病害非常有帮助。然而,Transformer 的计算量和数据需求通常远大于CNN,因此如何对其进行轻量化,使其适用于移动设备,是未来的一个重要研究方向。
数据融合与多模态 :目前的研究多以 RGB 图像 为主。但许多早期病害在可见光波段并不明显,但在高光谱 或热红外 等特殊波段下却有独特的表现。未来的研究趋势必然是多模态数据融合,通过整合不同传感器的信息,构建更强大的病害诊断系统。
模型部署的挑战:虽然文章提到了一些部署到移动端的尝试,但现实中的部署远非易事。它需要解决一系列问题:
硬件兼容性:模型需要在不同型号的手机、无人机或机器人上稳定运行。
能耗问题:在电池供电的设备上,模型的能耗是关键考量。
离线推理:果园可能没有网络连接,模型需要支持离线推理。
用户交互:设计一个简单易用的移动应用界面,让农户能够轻松使用。
总而言之,苹果病害的智能识别是一个充满潜力的领域。尽管已经取得了显著成果,但要真正实现大规模、商业化的应用,我们还需要在数据多样性、模型鲁棒性、轻量化与部署等方面持续投入研究。
器官生长检测

自动监测苹果树不同器官(花朵、枝干、果实等)以优化果园管理的重要性,例如疏果、修剪和采摘。它解释了深度学习和计算机视觉技术如何克服传统方法(如颜色阈值法)对光照和阴影敏感的局限性。文档将相关研究分为三个主要领域:
-
苹果花朵检测: 这对于评估结果密度和规划疏果操作至关重要。文中所讨论的研究使用了多种模型,如 CNN、Mask-RCNN、EfficientDet 和 YOLOv5/YOLOv7 。文本指出,研究人员正通过数据增强(例如使用生成模块)和模型优化(例如使用轻量级模块、SENet 和 CA 等注意力机制)来改进模型性能。
-
枝干检测: 这对于机器人的修剪以及采摘时的避障操作至关重要。文本提到使用来自 Kinect V2 等传感器的 RGB 和 3D 点云数据 。研究人员使用 SegNet、DeepLabv3 和 ResNet-18 等模型进行语义分割,从而有效地将枝干从背景中区分出来,即使它们的颜色与树干相似。文本还强调了改进的 YOLOv5s 模型能够处理全年的季节性变化。
-
果实检测: 这是产量估算和自动化采摘的关键步骤。该领域的研究利用 CNN、YOLOv3 和 U-Net 来检测果实、测量其大小和监测成熟度。文本指出,对 YOLOv5 的改进使其在光照和噪音变化下更具鲁棒性。
1. 多器官检测的价值
全年检测苹果树不同器官(花朵、枝干和果实)的能力,是构建全面、综合的果园管理系统的关键一步。早期的花朵检测可以为疏果提供信息以防止果实拥挤,而晚期的果实检测则可以指导采摘机器人。枝干检测则是修剪和地面机器人避障的先决条件。这种整体性的方法超越了单一任务解决方案,正朝着一个真正的智慧果园迈进。
2. 多模态数据的力量
文中提到使用3D点云数据 配合RGB图像进行枝干检测,这是一个非常重要的观点。这是多模态数据融合的绝佳例子。RGB图像提供了纹理和颜色信息,但深度传感器则提供了至关重要的空间信息,这有助于将枝干从背景中区分出来,尤其是在它们被遮挡或颜色相近时。这种融合通常是在复杂、真实的户外环境中实现高鲁棒性的必要手段。
3. 模型效率与实时性能
该文本反复强调使用 YOLO 系列(YOLOv5、YOLOv7) 、EfficientDet 和 ShuffleNetv2 等轻量级模型,以及对高 FPS(每秒帧数) 的需求。这突出了农业机器人技术的一个关键挑战:模型必须足够小且速度足够快,才能在资源有限的设备(如机器人或无人机上的摄像头)上运行。研究人员的目标不仅仅是高精度,更是为了在精度、速度和模型大小之间寻求最佳平衡,以实现实际部署。
4. 应对环境挑战
使用改进的 YOLOv5s 模型在不同季节(春、夏、秋、冬)进行枝干检测的研究尤其值得关注。这表明了对季节性鲁棒性的重视。枝干的外观会随着叶子和果实的存在而发生巨大变化。在所有季节的图像上训练模型对于创建一个可以全年运行的真正可靠系统至关重要。
5. 未来发展方向
-
将任务整合到单一模型中: 我们可以开发一个单一的多任务深度学习模型,来同时检测和分析所有树木器官吗?这将显著提高效率。
-
时序分析: 我们如何利用随时间推移捕获的图像序列来跟踪单个果实或枝干的生长?这种时序数据分析可以带来更准确的生长监测和产量预测。
-
改进数据采集: 缺乏枝干和树干的公开数据集是一个主要瓶颈。我们需要更多包含多样化环境条件和季节性变化的大规模标注数据集,以推动该研究领域向前发展。
产量预测

如何利用深度学习和计算机视觉技术来准确预测苹果产量,以帮助果农和销售商更好地规划生产、采摘、包装和储存。它首先指出了传统方法(如人工抽样和图像处理算法)的不足之处,即耗时、不准确,且容易受到光照变化和果实遮挡的影响。
-
模型与技术: 研究人员尝试了多种模型,如 CNN、ResNet、Faster R-CNN、YOLOv3、YOLOv7 和 AppleYOLO 。为了提高性能,他们引入了多尺度特征、注意力机制(VIT) 、以及多目标跟踪 算法(如 ByteTrack 和 Deep OC-SORT)。
-
解决核心挑战: 文章特别强调了深度学习如何解决两个主要问题:
-
果实遮挡与重叠: 传统的图像处理方法难以应对果实被叶子或枝干遮挡的情况。而深度学习模型,尤其是结合了多目标跟踪的方法,能够更有效地处理这些复杂场景。
-
重复计数: 在视频或连续图像中,同一个果实可能被多次检测。多目标跟踪技术,如基于卡尔曼滤波和轨迹预测的方法,能够将跨帧的同一果实进行关联,从而避免重复计数。
-
-
模型优化: 文中提到一些研究者通过改进模型结构(如在YOLOv7中加入多注意力机制MAM ),并结合跟踪算法来提高检测和计数的准确性。例如,AppleYOLO模型融合了YOLOv8和Deep OC-SORT,并在自定义数据集上取得了98.50%的MAP(平均精度均值)。
该部分展示了将目标检测与多目标跟踪相结合是实现高精度苹果产量预测的关键,但同时也指出,大规模产量预测目前仍受限于缺乏人工计数进行评估和验证的难题。
1. 从"检测"到"计数"的飞跃
单纯的果实检测,即在图像上画出边界框,只是第一步。真正的难点在于如何准确地对果实进行计数,尤其是在果实密集、互相遮挡的环境中。这也就是为什么文献中反复强调**多目标跟踪(Multi-Object Tracking, MOT)**的重要性。MOT技术就像是给每一个果实贴上了一个独一无二的ID,即使它在不同帧中被遮挡或移动,系统也能识别出这是同一个果实,从而避免重复计数。
图5的示例(YOLOv7 + MAM 模型)很好地展示了这一点。它不仅仅检测到了果实,更通过ByteTrack 这样的跟踪算法,实现了对多个果实轨迹的追踪。这是解决"重复计数"问题的根本方法,也是未来产量预测的必由之路。
2. 数据与评估的挑战
文献中提到一个非常尖锐且现实的问题:如何在大规模果园中验证模型的准确性? 传统的做法是人工清点,但这对于成千上万棵果树来说是不可行的。这导致了目前的研究大多停留在小规模数据集的"实验室阶段"。要突破这个瓶颈,我们需要开发新的评估方法。例如,可以结合重量传感器、采摘机器人的采摘记录,或者开发更高效的半自动化计数工具,来获取大规模、高精度的"地面真实值"(Ground Truth)。
3. 动态产量预测与物联网融合
未来的发展方向绝不仅仅是采摘前的一次性预测。真正的智慧果园需要动态产量预测。这意味着我们需要一个系统,能够实时监测果实从坐果到成熟的全过程,并根据生长数据(如果实大小、颜色变化等)和环境数据(如气温、降雨量)来动态调整产量预测。
这需要将深度学习与**物联网(IoT)**技术相结合。例如,在果园中部署多个摄像头和传感器,持续收集数据,并通过云端或边缘计算进行实时分析。这样,预测结果将不再是静态的数字,而是一个随时间变化的曲线,能够更精确地指导农业决策。
总而言之,苹果产量预测正从一个单一的计算机视觉问题,演变为一个多学科交叉的复杂系统工程。 未来的研究将更加注重模型的鲁棒性、实时性,以及与物联网、农业决策系统的深度融合。
收获后缺陷检测

这段文献主要讨论了利用深度学习和计算机视觉技术来自动检测苹果在采摘、运输等过程中产生的表面缺陷,以取代传统的人工分拣:
-
问题背景: 人工分拣耗时耗力且主观性强,难以保证分拣质量。随着技术发展,深度学习能够从原始图像中自动提取高级特征,从而实现精准分类。
-
研究现状与技术: 文中列举了多项研究,展示了在苹果缺陷检测方面取得的进展,并总结了所用的模型(如 YOLOV3, SSD, U-Net, DeepLab, YOLOV8n 等)和高精度成果(如表5所示)。
-
多模态成像技术: 文中特别强调了除了常见的 RGB 图像 ,研究人员还使用了 直流(DC)、交流(AC) 图像,以及 近红外(NIR) 图像。这非常重要,因为近红外图像在检测人眼和普通RGB相机难以发现的早期瘀伤方面具有独特优势。
-
模型创新与优化: 为了提高检测性能,研究人员对模型进行了多种改进,例如:
-
ASDINet: 针对小样本问题,设计了基于U-Net的网络,实现了高精度和高速度。
-
YOLOV8n 的改进: 引入了 WIOU 损失函数 、ShuffleAttention 以及 CGFPN 等模块,显著提升了模型在复杂环境下的检测能力。
-
多源数据融合: 文中提到,通过结合SIRI系统获得的 DC、AC、RT 等不同格式的图像来训练YOLOV8n,实现了对多种缺陷的同时识别。
-
-
挑战与未来方向: 文中指出,尽管表面缺陷检测已取得巨大进展,但早期缺陷 (特别是内部缺陷)的检测仍然不准确。未来的研究需要整合多种成像技术(如高光谱、热成像、X射线)和超声波检测,并通过多模态数据分析来提高检测精度。
1. 表面与内部缺陷的二元性
文献中将缺陷检测分为两个层次:表面缺陷 和内部缺陷/早期缺陷。这两种缺陷的检测方法截然不同。
-
表面缺陷: 通常通过可见光(RGB)图像就能很好地识别。它们通常表现为颜色、纹理或形状的变化。正如文献所展示的,深度学习模型(如YOLO系列和U-Net)在这方面已经取得了非常高的精度。
-
内部/早期缺陷: 这类缺陷在苹果内部或刚发生时,表面几乎没有变化,肉眼无法察觉。这就是为什么单靠RGB图像行不通 的原因。而近红外(NIR) 、高光谱 、热成像 和X射线等技术可以"看透"果实表面,捕捉到内部组织结构或水分含量的微小变化,从而实现早期检测。这种技术上的转变是该领域未来发展的关键。
2. 小样本学习的重要性
文献提到了 ASDINet 在小样本条件下实现了高精度。这解决了农业领域的一个普遍难题:高质量的缺陷图像难以大规模获取 ,尤其是一些罕见的病害或特定类型的损伤。因此,**小样本学习(Few-Shot Learning)和零样本学习(Zero-Shot Learning)**等技术在农业目标检测中具有巨大的应用潜力。通过这些方法,我们能够用少量标注样本甚至无需标注,就能训练出有效的模型。
3. 模型的实用性与可扩展性
表5中列举的模型在准确率上都表现出色。然而,在实际应用中,我们还需要考虑其他因素:
-
检测速度: 工业分拣线通常需要极高的处理速度,因此模型的实时性至关重要。
-
硬件成本: 不同的成像系统(如高光谱相机)成本差异巨大。如何在精度和成本之间取得平衡,是决定技术能否大规模推广的关键。
-
多模态数据融合的挑战: 文中提到了未来的多模态融合方向。但实际操作中,如何同步采集多源数据、如何对异构数据进行对齐和融合、如何设计能够处理多模态输入的模型,都是需要深入研究的难题。
总的来说,这段文献为我们勾勒出了一条清晰的技术演进路径:从单一的RGB图像检测,到融合多种光谱和物理信息的多模态感知,最终目标是建立一个能够全面、精准诊断苹果质量的智能系统。
总结
核心优势与局限性
正如文章所指出的,深度学习在实时性 和鲁棒性方面表现出色,能够应对复杂多变的果园环境,这是传统方法难以企及的。然而,要将这种技术真正落地,还需要克服一些关键障碍:
-
数据挑战: 农业数据的获取和高质量标注成本高昂,且难以覆盖所有季节和环境变化。这导致模型泛化能力不足,在实际应用中表现欠佳。
-
模型挑战: 高精度的深度学习模型通常参数量巨大,计算复杂度高,这使得它们难以在无人机或机器人等边缘设备上进行实时部署。
-
硬件挑战: 图像质量直接影响模型性能。而高分辨率、高精度的硬件设备成本高昂,难以大规模普及。
这篇综述为我们勾勒出了一幅清晰的未来图景:一个高度自动化的智能果园。在这个果园里,机器人和传感器将取代大部分人工操作,从花朵监测、枝干修剪,到病虫害防治、产量预测和果实分拣,都由人工智能系统精确管理。
要实现这个愿景,我们需要在该领域继续努力,特别是在以下几个方面:
-
多模态数据融合: 结合RGB、高光谱、近红外和3D点云等多种数据源,让模型拥有"多重感官",能够更全面地理解果树的健康状况。
-
轻量化与边缘计算: 开发更小、更快、更节能的深度学习模型,并将其部署到田间设备上,实现真正的实时、离线处理。
-
小样本学习与半监督学习: 探索用更少标注数据训练出高性能模型的方法,降低数据采集和标注的成本,从而加速技术的商业化应用。
这篇综述不仅是对现有研究的梳理,更是一份未来研究的行动指南。它告诉我们,仅仅追求更高的准确率是不够的,我们必须将目光投向实用性、鲁棒性和可扩展性,才能让这些前沿技术真正服务于农业生产,为果农带来实实在在的经济效益。