联合国预测，2050 年世界人口预计达到 91 亿，全球对粮食的需求量将增加 70%。然而，由于世界农业发展不均衡，很多地区的粮食产量尚无法被准确统计，因此无法对这些区域的农业发展做出合理规划。现有的粮食产量统计方法则难以推广或是需要较高的科技水平。为此，京都大学的研究者通过卷积神经网络 (CNN) 对农田照片进行分析，高效准确地对当地的粮食产量进行了统计，为促进全球农业发展提供了新方法。

作者 | 雪菜

编辑 | 三羊

本文首发于 HyperAI 超神经微信公众平台~

受人口增长、收入增加以及生物燃料广泛使用的影响，2050 年全球对粮食的需求量将增加 70%。

然而，由于全球气候变暖和生物多样性下降，世界各地粮食产量极易受环境变化影响，且区域间发展不均衡。

图 1：2020 年全球谷物产量地图

可以看到，中国、美国、印度和巴西是主要的产粮地，而南半球的粮食产量相对较低。而且，由于南半球的农业生产力较低，其粮食产量很难被准确统计。 因此，我们很难对当地的农业生产力进行有效评估，更无法提供有效的增产手段。

目前有 3 种常用的粮食产量统计方法，包括自我汇报、实割实测和遥感统计。前两种方法很难大规模推广，而遥感技术的使用则会受到当地科技水平的制约。

为此，京都大学的研究者利用卷积神经网络 (CNN)，对实地拍摄的农田照片进行分析，进而对当地的粮食产量进行统计。结果显示，CNN 模型可以对不同光照条件下的收割期和成熟后期的水稻产量进行迅速、准确的统计。 这一成果已发表于《Plant Phenomics》。

论文链接：

spj.science.org/doi/10.3413...

实验过程

1. 建立数据库：水稻冠层照片 + 粮食产量

研究人员在 7 个国家的 20 块农田中采集了水稻照片和粮食产量。水稻成熟后，用数码相机在水稻冠层上 0.8 至 0.9 米的高度，垂直向下拍摄，得到面积 1 m² 水稻的 RGB 照片。

注：水稻的冠层是水稻枝叶稠密的顶层，是植物进行光合作用的主要部位。

随后，他们改变了拍摄角度、时间和时期，并在部分实验中逐次摘掉了水稻的花序，以探究 CNN 模型预测产量的机制。最终他们从 4,820 个拍摄地点得到了 462 种水稻的 22,067 张 RGB 照片。

实验中粮食产量为粗粒产量，包括水稻实粒和空粒的总重。统计得到的粮食产量在 0.1 t/ha （吨每公顷）和 16.1 t/ha 之间，呈现正态分布，平均产量约 5.8 t/ha。

图 2：水稻冠层图像及粮食产量分布

A：7 个国家的粗粒产量分布；

B：不同国家平均粗粒产量饼状图；

C：粗粒产量最高的水稻图像；

D：粗粒产量最低的水稻图像。

2. 产量预测：冠层照片 + CNN → 粮食产量

CNN 模型、丢失函数和优化器使用 Python 语言和 PyTorch 框架进行部署。随后，研究人员通过组合不同的 Batch Size 和 Learning Rate，计算模型训练完成时的验证损失和相对均方根误差 (rRMSE)，得到了模型的最佳 Batch Size (32) 和 Learning Rate (0.0001)。

CNN 模型在 Main Stream (MS) 中有 5 个卷积层，Branching Stream (BS)中有 4 个卷积层。模型的池化层包括平均池化层 (AveragePooling) 和最大池化层 (MaxPooling)。激活函数主要为整流线性单元 (ReLU)，在某些部分使用指数线性单元 (ELU)。最后 MS 和 BS 汇合，通过 ReLU 层输出预估的粮食产量。

图 3：CNN 模型示意图

CNN 模型对图像有着较强的分辨能力。 当地面采样间隔 (GSD，照片中每个像素点对应的现实距离，与分辨率相反)为 0.2 cm/pixel 时，CNN 模型预测结果和实际结果的相关系数 R² 在 0.65 以上。即使 GSD 增大到 3.2 cm/pixel，模型的 R² 也能保持在 0.55 以上。

图 4：CNN 模型预测结果与 GSD 的关系

A：CNN 模型的 R2 与验证集、测试集照片 GSD 的关系；

B：CNN 模型预测产量与实际产量的散点图；

C & D：GSD 为 0.2 cm/pixel 和 3.2 cm/pixel 的示意照片。

进一步的，研究人员用预测集的数据对 CNN 模型进行了测试。CNN 模型可以分辨出在东京的高成 (Takanari) 水稻和越光 (Koshihikari) 水稻产量的差异，且预测数据接近实际数据。

图 5：高成水稻和越光水稻的实际产量 (A) 和预测产量 (B)

随后，团队对图片进行了遮挡，以探究 CNN 模型分析图片并预测粮食产量的机制。他们用灰色块遮挡了照片的特定区域，并计算了遮挡前后 CNN 模型预测产量的差值。

图 6：遮挡实验示意图

A：遮挡前的照片；

B：遮挡后的照片；

C：照片不同区域对预测产量的权重。

结果显示，粮食产量与水稻花序的数量正相关，而与茎、叶、地面等元素在图片中的占比负相关。

于是，研究人员通过花序移除实验，验证了花序在产量预测中的作用。他们从每株水稻上摘下两个花序，拍照并统计粗粒产量，直到花序被全部摘下。

图 7：花序移除实验及结果

A：花序移除实验示意图；

B：花序移除后的照片；

C：预计产量和实际产量折线图；

D：花序移除过程中预计产量和实际产量之间的关系。

随着花序数量减少，CNN 模型的产量预测结果不断降低，最后降至 1.6 t/ha。这一实验说明，CNN 模型主要是基于照片内花序的数量对粮食产量进行判断的。

3. 鲁棒性：拍照角度、时间及时期

验证了 CNN 模型对粮食产量的预测能力后，研究人员改变了拍摄角度、时间和时期，以探究 CNN 模型在不同条件下的鲁棒性。

照片的拍摄角度在 20°-90° 之间，测试间隔为 10°。结果显示，CNN 模型的预测精度随拍照角度的增大而提高。 当拍摄误差为 20° 时，CNN 模型的预测结果为 -3.7-2.4 t/ha。拍摄角度为 60° 时，预测误差在 -0.45-2.44 t/ha 之间，与 90° 时的预测结果接近。