论文13 | Nature: 数据驱动的地球系统科学的深度学习和过程理解

《Nature》发表的一项研究提出，利用深度学习自动提取时空特征，有助于理解地球系统的复杂过程，提高季节预测精度，并模拟长程空间关联。研究建议将物理过程模型与数据驱动的机器学习结合，以实现更精准的地球科学研究。

**摘要：**机器学习方法越来越多地用于从不断增长的地理空间数据流中提取模式和洞见，但当系统行为受到空间或时间上下文的支配时，当前的方法可能并非最佳选择。在这里，我们认为应该利用这些上下文线索作为深度学习的一部分（这种方法能够自动提取时空特征），以进一步理解地球系统科学问题的过程，提高季节预测的预测能力，以及跨多个时间尺度模拟长程空间连接。下一步将是一种混合建模方法，将物理过程模型与数据驱动机器学习的多功能性相结合。

引言

人类一直努力预测和理解世界，而提高预测能力 在不同环境中（如天气、疾病或金融市场）都带来了竞争优势。然而，预测工具随着时间的推移发生了巨大变化，从古希腊的哲学推理到中世纪非科学方法如占卜，再到现代科学论述，其中包括基于统计和物理关系的假设检验、理论发展和计算机建模，即定律。地球科学领域的一个成功案例是天气预测 ，通过更好的理论、增强的计算能力和建立的观测系统的整合，天气预测得到了很大改善，这些系统允许将大量数据同化到模拟系统中。然而，我们只能在数天 的时间尺度上准确预测天气的演变，而不是数月。季节气象预测、预测极端事件如洪水或火灾以及长期气候预测仍然是重大挑战。对于生物圈动态的预测，情况尤为如此，生物圈主要由生物介导的过程（如生长或繁殖）控制，受到火灾和山体滑坡等看似随机的干扰的强烈影响。在过去几十年里，这些预测问题没有取得太多进展。与此同时，大量地球系统数据已经可用，存储容量已经远远超出了数十个PB，并且每天的传输速率迅速增加，超过了数百TB。这些数据来自于大量传感器测量的状态、通量和强度或时间/空间集成变量，代表了十五个以上的时间和空间数量级。它们包括从地球上方几米到数百公里的遥感观测，以及表面和大气层下（越来越多来自自动传感器）的原位观测，其中许多观测还进一步得到公民科学观测的补充。模型模拟输出增加了这种数据洪流；用于定期气候评估的气候模型比较项目（CMIP-5）数据集大小超过3PB，而下一代CMIP-6的估计大小将达到30PB。模型数据与观测数据具有许多相似的挑战和统计特性，包括许多形式的不确定性。总之，地球系统数据是"大数据 "的四个"V"中的典型代表：容量、速度、多样性和准确性。一个关键挑战是从这些大数据中提取可解释的信息和知识，可能几乎是实时的，并在各个学科之间进行整合。

图 1|地球科学背景下的大数据挑战。数据大小现已超过 100 PB，并且呈准指数增长（数字向右逐渐变细表示数据大小不断减小）。变化速度每年超过 5 PB；数据采集频率高达 10 Hz 或更高；重新处理和版本控制是常见的挑战。数据源可以是一维到四维的、空间集成的，从器官级别（例如叶子）到全局级别。地球拥有多种观测系统，从遥感到实地观测。数据的不确定性可能源于观察错误或概念不一致。

过去几十年里，预测能力并没有随着数据可用性的提高而迅速提高。为了充分利用地球系统数据的爆炸性增长和多样性，我们在未来几年面临两项主要任务：(1) 从海量数据中提取知识，(2) 推导模型，从数据中学到的知识比传统模型要多得多。数据同化方法可以，同时仍然尊重我们对自然法则不断发展的理解了。

前所未有的数据源、增强的计算能力以及统计建模和机器学习的最新进展相结合，为我们从数据中扩展对地球系统的了解提供了机会。特别是，机器学习和人工智能领域有许多工具可用，但它们需要进一步开发并适应地球科学分析。地球系统科学提供了新的机遇、挑战和方法论要求，特别是最近关注时空背景和不确定性的研究方向。

在以下各节中，我们回顾了地球科学背景下机器学习的发展，并强调深度学习（即自动提取抽象（时空）特征）如何有潜力克服许多限制，直到现在，阻碍了机器学习的更广泛采用。我们进一步提出了将机器学习与物理建模相结合的最有前途但也最具挑战性的方法。

最先进的地球科学机器学习

机器学习现已成为多种研究驱动和操作性地球科学处理方案中的成功组成部分，涵盖了大气、陆地表面和海洋领域，并在过去十年中随着数据可用性的增加共同发展。近30年前，通过高分辨率卫星数据和神经网络的首次复兴，土地覆盖和云分类领域出现了早期的重要里程碑。大多数主要的机器学习方法（例如核方法或"随机森林"）随后被应用于地球科学和遥感问题，通常是在适合这些方法的数据变得可用时。因此，机器学习已经成为地球科学分类、变化和异常检测问题中的一种通用方法。在过去几年中，地球科学开始使用深度学习来更好地利用数据中的空间和时间结构 ，这些特征对于传统机器学习来说通常很难提取（见表1及下文）。另一类成功应用于机器学习的问题是回归。例如，在土壤制图中，土壤属性和协变量的测量点在空间上稀疏分布，通过使用"随机森林"这一流行且高效的机器学习方法，可以预测空间上密集的土壤属性或土壤类型估计值。

在过去十年中，机器学习在从遥感反射率中回归估计生物地球物理参数方面取得了卓越的成果，覆盖了局部和全球尺度。这些方法强调空间预测，即在观察期间相对静态的属性的预测。然而，使地球系统有趣的是它不是静态的，而是动态的。机器学习回归技术也被用来研究这些动态，通过将时间变化的特征映射到时间变化的目标变量上，覆盖了陆地、海洋和大气领域。由于土地-大气或海洋-大气碳吸收等变量无法在各处观察到，因此一个挑战是通过构建将气候和遥感协变量与目标变量关联的模型，从点观测推断出大陆或全球估计值。在这种情况下，机器学习方法被证明比以前的机械模型或半经验模型更强大和灵活。例如，一个具有一个隐藏层的人工神经网络能够滤除噪声，预测二氧化碳（CO2）通量的昼夜和季节变化，并提取出一些以前未量化且在碳循环模型中未能很好表示的模式，如春季根系生长期间呼吸作用的增加。随后的发展使我们能够以纯数据驱动的方式量化全球陆地光合作用和水的蒸散。此类机器学习预测的通量的空间、季节、年际或十年变化甚至被用作物理地表和气候模型评估的重要基准。同样，海洋二氧化碳浓度和通量也通过神经网络进行了时空映射，结合了分类和回归方法，用于数据分层和预测。最近，随机森林方法也被用于预测时空变化的降水。

总体而言，我们可以得出结论，已有多种有影响力的机器学习方法被应用于地球系统科学的所有主要子领域，并且越来越多地被整合到操作方案中，用于发现模式，改进我们的理解以及评估综合物理模型。尽管机器学习在地球科学中取得了成功，但一些重要的警示和限制阻碍了其更广泛的采用和影响。一些陷阱，如天真地外推、采样或其他数据偏差、忽视混杂因素、将统计关联解释为因果关系或多重假设检验中的基本缺陷，应该通过最佳实践和专家干预加以避免。

更根本的是，目前应用的机器学习方法存在固有的局限性。在这一领域，深度学习技术有望带来突破。经典的机器学习方法受益于领域特定的人工设计特征，以考虑时间或空间上的依赖性（例如，从每日时间序列中推导的累计降水量），但很少能充分利用时空依赖性。例如，在海洋-大气或陆地-大气二氧化碳通量预测中，通常将瞬时的局部环境条件（如辐射、温度和湿度）映射到瞬时通量上。实际上，某一时间和空间点的过程几乎总是受到系统状态的额外影响，而系统状态往往观察不充分，因而不可用作预测变量。然而，先前时间步和相邻网格单元中包含了系统状态的隐藏信息（例如，长期无降雨加上持续的晴天意味着干旱）。**

一个时空背景高度相关的例子是火灾发生和特征（如燃烧面积和痕量气体排放）的预测。火灾的发生和蔓延不仅取决于瞬时气候驱动因素和点火源（如人类、闪电或两者），还取决于状态变量，如可用燃料的状态和数量。火灾蔓延和燃烧面积不仅取决于每个像素的局部条件，还取决于燃料的空间分布和连接性、其湿度、地形特性，当然还有风速和风向。同样，将某一大气状况分类为飓风或温带风暴需要了解空间背景，例如由像素、其值及其拓扑结构构成的风暴几何。检测飓风和评估其强度的重要因素是检测对称的外流和明显的"眼"，这无法仅通过局部的单像素值来确定。

当然，时间动态属性 （"记忆效应"）可以通过人工设计和领域特定的特征在机器学习中表示。例如，累计的日温度总和可用于预测植被的物候阶段，而标准化降水指数则总结了过去几个月的降水异常，作为气象干旱状态的指标。这些方法通常只考虑单一变量的记忆效应，忽略了多个变量的交互效应，尽管也有例外存在。

机器学习还可以使用人工设计的特征，如地形形状和卫星图像中的地形或纹理特征，以纳入空间背景。这类似于计算机视觉的早期方法，物体通常由描述边缘、纹理、形状和颜色的一组特征来表征。然后将这些特征输入标准机器学习算法，用于图像中的对象定位、分类或检测。类似的方法已经在遥感图像分类中应用了几十年。人工设计特征既可以被视为一种优势（对解释驱动因素的控制），也可以被视为一种劣势（繁琐的、特设的过程，可能非最优），但对于使用有限且主观选择的特征而非广泛且通用的方法的关注，仍然有效且重要。

地球系统科学中的深度学习机会

深度学习在建模有序序列和具有空间背景的数据方面取得了显著成功，应用领域包括计算机视觉、语音识别和控制系统，以及物理学、化学和生物学等相关科学领域。尽管在地球科学中的应用还处于起步阶段，但在分类、异常检测、回归、时空状态预测等关键问题上已有一些有前景的例子。最近的两项研究展示了深度学习在极端天气问题上的应用，例如飓风检测，这在传统机器学习中是一个难题。研究报告成功地应用深度学习架构来客观提取空间特征，以定义和分类数值天气预报模型输出中的极端情况（如风暴、大气河流）。这种方法能够快速检测这些事件和预测模拟，而不需要使用主观的人类标注或依赖于预定义的任意风速或其他变量阈值的方法。特别是，这种方法利用事件的空间形状信息，例如飓风的典型螺旋形状。同样，对于城市区域的分类，自动从遥感数据中提取多尺度特征显著提高了分类准确性（几乎总是超过95%）。

图2|典型深度学习应用的四个示例（左图）及其可应用于的地球科学问题（右图）。a，图像中的对象识别与使用气候模拟数据上的统一卷积神经网络对极端天气模式进行分类相关联。b，超分辨率应用涉及气候模型输出的统计缩减。c，视频预测类似于地球系统变量的短期预测。右图由马克斯·普朗克生物地球化学研究所的 Sujan Koirala 和 Paul Bodesheim 提供。d，语言翻译链接到动态时间序列建模。

虽然深度学习方法传统上分为空间学习（如用于对象分类的卷积神经网络）和序列学习（如语音识别） ，但将这两种视角结合起来的兴趣日益浓厚。一个典型的例子是视频和运动预测，这个问题与许多动态地球科学问题有着惊人的相似性。我们面临的是时间演变的多维结构，例如组织化的降水对流，它主导了热带降雨模式，以及影响碳流动和蒸散的植被状态。研究开始将卷积-递归混合方法应用于地球科学问题，如降水预报。大气和海洋输送、火灾蔓延、土壤运动或植被动态建模是另一些时空动态重要但尚未从这些新方法中受益的问题例子。

简而言之，经典深度学习应用处理的数据类型与地球科学数据之间的相似性为深度学习在地球科学中的整合提供了有力的论据。图像类似于包含特定变量的二维数据场，类似于照片中的颜色三元组（RGB值），而视频可以链接到一系列图像，因此可以链接到随时间演变的二维场。类似地，自然语言和语音信号与地球系统变量的动态时间序列具有相同的多分辨率特征。此外，分类、回归、异常检测和动态建模是计算机视觉和地球科学中的典型问题。

地球系统科学中的深度学习挑战

表 1 地球科学任务的常规方法和深度学习方法

分析任务	科学任务	常规方法	常规方法的局限性	新兴或潜在方法
分类和异常检测	发现极端天气模式	多变量、基于阈值的检测	使用启发式方法，采用临时标准	监督和半监督卷积神经网络
分类和异常检测	土地利用和变化检测	按像素的光谱分类	使用的空间上下文浅，或没有	卷积神经网络
回归	预测大气条件下的通量	随机森林、核方法、前馈神经网络	没有考虑记忆和滞后效应	递归神经网络、长短期记忆网络（LSTMs）
回归	预测大气条件下的植被特性	半经验算法（温度总和、水分亏缺）	在功能形式和动态假设方面具有规范性	递归神经网络，可能包含空间上下文
回归	预测无测站流域的河流径流	过程模型或具有手工设计地形特征的统计模型91	考虑空间上下文仅限于手工设计的特征	卷积神经网络与递归网络的组合
状态预测	降水短临预报	结合数据同化的物理建模	由于分辨率的限制，计算能力有限，数据仅用于更新状态	卷积-长短期记忆网络具有短程空间上下文
状态预测	缩小比例和校正偏差的预报	动态建模和统计方法	计算能力有限，主观特征选择	卷积神经网络，条件生成对抗网络（cGANs）
状态预测	季节性预报	结合数据条件的物理建模，仍然依赖周围条件	结合数据条件的物理建模，仍然依赖周围条件	卷积-长短期记忆网络具有长程空间上下文
状态预测	交通建模	交通建模的物理建模，计算能力有限	混合物理-卷积网络模型

上述经典深度学习应用与地球科学应用之间的相似性显而易见。然而，二者之间也存在诸多差异。例如，经典计算机视觉应用处理的照片有三个通道（红、绿、蓝），而高光谱卫星图像则扩展到数百个超出可见范围的光谱通道，这通常会引发与自然图像不同的统计特性，包括变量的空间依赖性和相互依赖性，从而违反了同分布独立的数据假设。此外，整合多传感器数据并不简单，因为不同传感器在成像几何、空间和时间分辨率、物理意义、内容和统计特性上各异。（多传感器）卫星观测序列还伴随着各种噪声源、不确定性水平、缺失数据和（通常是系统性的）间隙（由于云层或积雪的存在、采集、存储和传输中的失真等）。

此外，光谱、空间和时间维度带来了计算挑战。数据量正在增加，很快将需要每天处理全球范围内的PB级数据。目前，最大的气象机构每天必须近实时处理TB级数据，通常以非常高的精度进行处理。

最后，与ImageNet（一个有人类标注图像的数据库，例如标签"猫"或"狗"）不同，地球科学中 并不总是存在大规模的标注数据集，不仅因为涉及的数据集规模大，还因为标注数据集在概念上存在困难。例如，确定图像描绘的是猫比确定数据集反映的是干旱要容易得多，因为干旱取决于强度和范围，并且会根据收集和分析数据的方法而变化，且没有足够的标注案例来训练机器学习系统。除了有限的训练集问题，地球科学问题通常受到约束不足，这可能导致模型在训练和测试数据集上表现良好，但在超出其有效域的情况下偏离严重（外推问题）。总体而言，我们识别了成功采用深度学习方法在地球科学中面临的五大主要挑战和途径，如下所示。

可解释性 提高预测准确性固然重要，但不足够。可解释性和理解至关重要，包括结果的可视化以供人类分析。可解释性被认为是深度神经网络的潜在弱点，实现它是当前深度学习的重点。该领域距离实现自解释模型以及从观测数据中发现因果关系仍有很大距离。然而，应该注意到，现代地球系统模型由于其复杂性，在实践中通常也不容易追溯到其假设，这也限制了它们的可解释性。
物理一致性 深度学习模型可以很好地拟合观测数据，但预测结果可能在物理上不一致或不合理，这是由于外推或观测偏差造成的。例如，通过教导模型了解地球系统的物理规则，结合领域知识和实现物理一致性，可以在观测约束之外提供非常强的理论约束。
复杂和不确定的数据 需要深度学习方法来处理复杂的统计、多输出、不同的噪声源和高维空间。新的网络拓扑不仅需要利用局部邻域（即使在不同尺度上），还需要利用长距离关系（例如，遥相关）。因变量之间的确切因果关系事先并不清楚，需要被发现。建模不确定性将是一个重要方面，并需要整合贝叶斯/概率推理概念，直接解决这些不确定性。
有限的标注 需要深度学习方法从少量标注示例中学习，同时利用相关未标注观测中的大量信息。这些方法包括无监督密度建模、特征提取、半监督学习和领域适应。
计算需求 当前地球科学问题的高计算成本是一个巨大的技术挑战，Google的地球引擎是一个很好的解决这一问题的例子，它解决了从森林砍伐到湖泊监测的实际问题，并有望在未来应用于深度学习。

通过解决这些挑战，深度学习在地球科学中的作用可能比在经典计算机视觉中的作用更大 ，因为在计算机视觉中，人工设计的特征是基于对世界的清晰理解（例如，物体的表面、边界），以及从世界到图像的映射和关于世界点（表面点）在二维图像上的外观假设（视觉）。成功处理的假设包括Lamberian表面的假设（即强度不依赖于表面与光源之间的角度），这导致了经典的观察三维点的强度随时间保持恒定的假设。此外，世界的变化（物体的运动）在大多数情况下被建模为刚性变换，或由物理假设产生的局部有效的非刚性变换（例如，脑结构在肿瘤切除前后的配准）。即使是计算机视觉中的复杂问题，也通过反映来自常见世界知识的假设和期望的人工设计特征解决。在地球科学和气候科学中，这种全球性、通用性知识仍部分缺失，事实上，这正是我们在研究中所追求的（因此不能作为假设）。从遥感图像中的分割到某些变量的回归分析，所有问题都有一些已知有效或至少是良好近似的假设。然而，过程理解得越少，预计存在的高质量人工设计特征就越少。因此，深度学习方法，特别是因为它们能从数据中找到良好的表示，代表了解决地球科学和气候研究问题的机会。

最有前途的近期应用包括短时预报（即气象学中对非常近的未来的预测，最多两个小时）和预测应用、基于时空上下文信息的异常检测和分类。长期愿景包括数据驱动的季节预测、跨多个时间尺度的空间长程相关性建模、空间动态建模（例如火灾）以及发现人类未曾想到的变量之间的遥相关和连接。

与物理建模集成

历史上，物理建模和机器学习 常被视为两个不同的领域，具有非常不同的科学范式（理论驱动与数据驱动）。然而，实际上这两种方法是互补的：物理方法原则上直接可解释并有潜力在观测条件之外进行外推，而数据驱动方法则在适应数据方面非常灵活，能够发现意想不到的模式。这两种方法之间的协同作用正在引起越来越多的关注，如基准测试计划和概念中的涌现约束。从系统建模的角度来看，有五个潜在的协同点。

图 3|物理模型和机器学习之间的联系。这里描述了物理系统的一部分的抽象------例如地球系统模型。该模型由子模型组成；每个子模型都有参数和强制变量作为输入并产生输出，该输出可以输入（强制）到另一个子模型。正如圆圈数字所示，数据驱动的学习方法在各种情况下都可能有所帮助。例如，标记为 2 的圆圈表示混合建模。ML，机器学习。

改进参数化 （圆圈1）。物理模型需要参数，但许多参数不能轻易从第一原理推导出来。机器学习可以学习参数化以最佳描述从详细和高分辨率模型生成的地面真实情况。例如，地球系统模型中的植被参数可以从适当的统计协变量集学习，而不是依赖于常见的植被功能类型分配。这种方法已经在水文学中进行了原型测试，其中环境变量（如降水和地表坡度）与集水区参数（如平均、最小和最大流量）的映射从数千个集水区学习并应用于全球水文学模型。
用机器学习模型替换"物理"子模型 （圆圈2）。如果子模型的公式是半经验性的，其功能形式没有太多理论基础（例如生物过程），则可以在有足够观测数据的情况下用机器学习模型替换该子模型。这会产生一个混合模型，结合了物理建模（理论基础、可解释部分）的优势和机器学习（数据适应性）的优势。例如，我们可以将植物中水运输的扩散物理方程与机器学习结合起来，用于水运输导管生物调节的理解不充分的部分。这将产生一个更"物理"的模型，遵循质量和能量守恒定律，但其生物调节部分是从数据中学习的。
分析模型-观测不匹配 （圆圈3）。物理模型与观测之间的偏差可被视为不完美知识导致的模型误差，假设没有观测偏差。机器学习可以帮助识别、可视化和理解模型误差的模式，从而相应地纠正模型输出。例如，机器学习可以自动从数据中提取模式，识别物理模型中未明确表示的模式。这种方法有助于改进物理模型和理论。
约束子模型 （圆圈4）。可以用机器学习算法的输出驱动一个子模型，而不是另一个（可能有偏差的）子模型的离线模拟。这有助于将感兴趣子模块的模型误差与耦合子模块的误差分离开来，从而简化和减少模型参数校准或观测系统状态变量同化中的偏差和不确定性。
替代建模或模拟 （圆圈5）。出于计算效率和可追溯性的原因，物理模型的全部（或部分）模拟可以被有用的模拟器替代。训练后的机器学习模拟器可以在不牺牲精度的情况下比原始物理模型实现数量级更快的模拟。这允许进行快速的敏感性分析、模型参数校准和估计置信区间。例如，机器学习模拟器用于替代计算昂贵的基于物理的辐射传输模型，这些模型在辐射、植被和大气之间的相互作用中至关重要，这对于解释和同化地表遥感数据至关重要。

图3中的一些概念在广泛意义上已经被采用。例如，链接（3）与模型基准测试、统计降尺度和模型输出统计相关。模拟（5）已在工程和地球科学的几个分支中广泛采用，主要是为了高效建模，但可追溯性问题尚未得到深入探讨。其他路径，如混合建模（链接（2）），似乎探索得更少。概念上，以上讨论的混合方法可以解释为加深神经网络，使其更具物理现实性，其中物理模型置于神经网络层之上。这与前面讨论的相反方法形成对比，即先生成物理模型输出，然后使用额外的机器学习层进行校正。我们认为，追求这两种整合物理建模和机器学习的方法是值得的。

图3提出了一种将机器学习整合到系统模型中的系统建模视角。作为另一种观点，系统知识可以整合到机器学习框架中。这可能包括网络架构设计、优化中的物理约束或对欠采样域的训练数据集扩展（即基于物理的数据增强）。例如，通常所谓的损失函数如普通最小二乘法惩罚模型-数据不匹配，它可以修改以避免在湖泊温度建模中产生物理上不合理的预测。物理学和机器学习模型的结合不仅可以实现性能和泛化的改进，而且更重要的是，能纳入机器学习模型的一致性和可信度。

最近在两种方法论上的进展有望在促进机器学习和物理模型的融合方面发挥作用：概率编程和可微编程。概率编程允许以正式但灵活的方式处理各种不确定性方面。适当考虑数据和模型不确定性，以及通过先验和约束整合知识，对于最佳结合数据驱动和理论驱动的范式至关重要，包括逻辑规则。此外，误差传播在概念上是无缝的，有助于为模型输出提供良好的不确定性边界。这一能力目前大部分还缺失。可微编程由于自动微分，可以实现高效优化。这有助于使大型、非线性和复杂的反演问题在计算上更易处理，并且还允许进行明确的敏感性评估，从而有助于解释性。

推进科学

毫无疑问，现代机器学习方法极大地提高了分类和预测能力。这本身就具有很大的价值。然而，除了统计预测之外，数据驱动的方法如何能够提高基本的科学理解，特别是考虑到复杂的统计模型的结果通常难以解释？一个基本的答案是，观察几乎一直是科学进步的基础。例如，哥白尼的发现是通过对行星轨迹的精确观察来推断和测试支配它们的定律而实现的。

如今，尽管探索、假设生成和测试的总体循环 保持不变，但现代数据驱动科学和机器学习可以在观测数据中提取任意复杂的模式，以挑战复杂的理论和地球系统模型。例如，基于机器学习的全球光合作用数据驱动估算表明，气候模型对热带雨林光合作用的高估。这种不匹配促使科学家们提出假设，从而更好地描述植被冠层中的辐射传输，这导致了其他地区更好的光合作用估算，并且与叶片水平观测更一致。相关的数据驱动碳循环估算使植被模型得以校准，并帮助解释了高纬度地区CO2浓度季节振幅增加的难题，根据这些结果，这是由于高纬度地区的植被更加旺盛。

除了数据驱动的理论和模型构建，提取的模式正越来越多地被用来探索改进地球系统模型中的参数化，模型模拟器也越来越多地被用作模型校准的基础。通过这种方式，理论与观测之间的科学互动，以及假设生成与理论驱动假设测试之间的互动将继续。这一进步不仅体现在提高预测精度上，更在于促进科学理解。数据驱动的分析可以揭示现有模型和理论中的不足，从而推动新理论的产生和现有理论的改进。例如，数据驱动的方法能够揭示气候模型在热带雨林光合作用估算中的偏差，从而引导科学家重新审视植被冠层中的辐射传输过程。这种反馈循环有助于不断改进地球系统模型，使其更加准确和可靠。

结论

地球科学需要处理大量且快速增加的数据，以提供更准确、更少不确定性和物理一致性的推断，包括预测、建模和理解复杂的地球系统。机器学习，尤其是深度学习，提供了构建新的数据驱动模型的有力工具，从而帮助我们更好地理解地球。以下是我们提出的四项主要建议，以应对地球系统特有的挑战，并进一步推动方法论的发展。

image.png500

图 4|将混合建模解释为通过在多层神经网络之后添加一个或多个物理层来深化深度学习架构，使模型在物理上更加真实。A，多层神经网络，n 为神经层数，m 为物理层数。B 和 c 是混合建模的具体示例（图 3 中的圆圈 2）。B，海面温度的预测，其中通过卷积-反卷积神经网络学习水的运动场

识别数据的特殊性:多源、多尺度、高维度、复杂的时空关系，包括变量之间非平凡的和滞后的远距离关系（遥相关），需要得到充分的建模。深度学习在应对这些数据挑战方面处于有利位置，需要开发新的网络架构和算法，以在不同尺度上处理时空背景（见图4）。
推断的可信性和可解释性:模型不仅应当准确，还应当可信，包含支配地球系统的物理学原理。机器学习在地球科学中的广泛应用将会得到促进，如果模型变得更加透明和可解释：其参数和特征排名应具有最小的物理解释，并且模型应当可以简化为或可解释为一组规则、描述符和关系。
不确定性估计:模型应当定义其信心和可信度。贝叶斯/概率推理应当被集成到模型中，因为这样的推理允许明确表示和传播不确定性。此外，识别和处理外推是一个优先事项。
对复杂物理模型的测试:机器学习的时空预测能力应至少与物理模型中观察到的模式一致。因此，我们建议使用地球系统物理模型生成的合成数据测试机器学习方法的性能。例如，图4b和4c中的模型应用于实际数据时，应在复杂物理模型模拟的广泛动态范围内进行测试。这在训练数据有限的情况下尤为重要，并有助于评估外推问题。

总体而言，我们建议未来的模型应整合基于过程和机器学习的方法。数据驱动的机器学习方法不会取代物理建模，而是会大大补充和丰富它们。具体来说，我们设想物理和数据驱动模型之间的各种协同效应，最终目标是混合建模方法：这些方法应遵守物理定律，具有概念化且因此可解释的结构，同时在理论薄弱的地方完全适应数据。重要的是，机器学习研究将受益于自然科学中推导出的合理物理关系。特别是，在最近进展甚少的两个主要地球系统挑战中------大气对流的参数化和生态系统对气候及交互地理因素的时空依赖性描述------可以利用本文讨论的混合方法来解决。