准确预测极端降水,哥伦比亚大学推出升级版神经网络 Org-NN

内容一览:随着环境变化加剧,近年来全球极端天气现象频频出现,准确预测降水强度对人类以及自然环境都十分重要。传统模型预测降水的方差较小,偏向小雨,对极端降水预测不足。

关键词:极端天气 内隐学习 神经网络

本文首发于 HyperAI 超神经微信公众平台~

受台风「杜苏芮」影响,北京市从 7 月 29 日开始了连续多日的强降雨,部分地区为特大暴雨。极端强降雨导致了海河流域发生流域性较大洪水,门头沟、涿州等地发生了严重的洪涝灾害。

据央视网 7 月 31 日报道,此次强降雨期间,北京已累计排蓄水超过 1000 万立方米,相当于排空了约 5 个颐和园昆明湖的水量,及时、准确、有效地预测极端降水,能最大程度上减轻人员伤亡,减少气象灾害带来的损失。

传统的气候模型参数化中缺少亚网格尺度的云结构与组织 (subgrid-scale cloud structure and organization) 信息,这会对粗粒度分辨率下降水强度和随机性产生影响,导致无法准确预测极端降水情况。哥伦比亚大学 LEAP 实验室使用全球风暴解析模拟与机器学习,创建了一种新的算法,解决了信息缺失的问题,提供了一种更精确的预测方法。

目前,该研究已发表于《PNAS》,文章标题为《Implicit learning of convective organization explains precipitation stochasticity》。

论文已发表于《PNAS》

论文地址:https://www.pnas.org/doi/10.1073/pnas.2216158120#abstract

准备工作:10 天气象数据+ 2 个神经网络

数据与处理

实验团队所用数据集是大气模式系统 (SAM) DYAMOND (DYnamics of the Atmospheric general circulation Modeled On Non-hydrostatic Domains) 第二阶段比较项目中模拟的大气环流动力学的一部分。这个项目对比模拟了北半球冬季的 40 天,实验人员将其中初始的 10 天作为模型的 spin-up,在后 30 天中随机抽取了 10 天作为训练集。

研究人员选择了合适的数据,并将这些数据粗粒度 (coarse-grain) 划分为子域,等同于或可与 GCM-size 的网格。

接下来,为了提供训练、验证和测试数据集,团队将 10 天分为 6 天、2 天、2 天,分别用于训练、验证和测试,且只保留了降水大于阙值 (0.05mm/h) 的样本,以便只专注于降水强度 (intensity) 而不是降水的起因 (trigger) 。最终,样本总数为 108 个。

神经网络架构

在实验中,研究人员使用了两个神经网络:传统模型 Baseline-NN(基准神经网络)与新提出的 Org-NN

Baseline-NN 是一个全连接前馈神经网络 (full connected feed-forward network),学习率按代进行调整。作为传统模型,Baseline-NN 只能访问大规模变量并预测降水。

Org-NN 含有一个自编码器,其编码器部分包括 3 个一维卷积层和两个全连接层 。编码器的 input 是尺寸为 32 x 32 的高分辨率 PW (可降水,precipitable water)异常 (anomalie),output 为 org 变量,org 维度是该网络的超参数,研究人员将其设置为了 4。解码器接收 org 变量并对原始的高分辨率场进行重构,与编码器的结构恰好相反。Org-NN 的神经网络部分与 Baseline-NN 相似,只额外添加了组织潜在变量 (org) 作为其 input

两者都使用 TensorFlow 2.9 版本实现,并使用 Sherpa 优化库对超参数进行了调优。

实验结果

实验团队对两个模型进行了预训练。为了评估神经网络的预测性能,科研人员选择了 R2,这是一种常用于量化回归模型性能的指标。计算公式如下:

传统模型 Baseline-NN

实验团队首先使用 Baseline-NN。下图展示当使用粗粒度的 PW、SST、qv2m 和 T2m 作为 input 时的降水可预测性 。其中,qv2m 与 T2m 用于向 Baseline-NN 提供边界层 (boundary-layer) 条件的信息。实验团队将粗粒度的 PW 分组,在每个组内对粗粒度降水的预测值与实际值进行平均,同时计算了落在每个分组内的粗粒度降水值方差

PW :可降水,precipitable water
SST :海面温度,sea surface temperature
qv2m :近地表 2m 的比湿,near-surface specific humidity
T2m:近地表 2m 空气湿度,surface temperature

图 1:PW bin 上粗粒度降水平均值

虚线 :真实的降水平均值
橘线 :预测的降水平均值
绿线 :每个 PW bin 中计算出的 R2
阴影部分:每个分组内的方差

Baseline-NN 准确地恢复了降水平均值(即分组的平均值)在 PW 条件下的关键行为,以及在临界点附近出现的快速转变。但是,实验团队发现它无法解释全球暴风模拟中观察到的降水变异性 ,而且其性能(通过所有样本的 R2 值估量)约为 0.45。低 R2 值表示,尽管可以捕捉到一些降水变异性,但是无法找到 input 与降水之间的强关系,且每个 PW bin 计算的 R2 值也未超过 0.5。

与此同时,实验团队还将 Baseline-NN 所预测的降水的概率密度函数与实际降水做比较,显示该模型无法预测降水分布的尾部 (tail) ,即无法预测极端降水的情况

图 2:降水的概率密度函数示意图

蓝色部分 :真实降水的概率密度函数
橙色部分:根据预测所得降水的概率密度函数

研究人员还将在粗粒度上的总云量作为神经网络的 input 之一,对 Baseline-NN 进一步测试 。总云量在气候模型中为参数化变量,与降水无直接关系,所以将其作为神经网络的输入可能会提供有关凝结水的线索,而凝结水会直接用于降水的参数化。这其实对预测改进的作用很小,但是强调了平均云量并不能提供准确预测降水的相关信息。此外,实验团队通过进一步分析,证实了 CAPE 与 CIN 不能作为预测因子,且不能改善预测结果

图 3: 降水概率密度函数图

蓝色部分 :真实降水概率密度函数
橘色部分 :预测得出降水概率密度函数
a :input 为 [PW、SST、qv2m、T2m、感热通量(sensible heat flux)、潜热通量(latent heat flux)]
b :input 为 [PW、SST、qv2m、T2m、总云量]
c:input 为 [PW、SST、qv2m、T2m、CAPE、CIN]

结论是 Baseline-NN 在准确预测降水以及变异性方面能力较低

新模型 Org-NN

实验团队接下来颠覆了传统方法,即利用 Org-NN进行预测。因为 Org-NN 含有一个自编码器,它可以直接从神经网络的目标函数通过反向传播接受反馈。因此,自编码器将可以被动提取改善降水预测的相关信息

下图显示了以粗粒度变量和 org 作为输入的 Org-NN 的降水预测结果。相比于 Baseline-NN,Org-NN 的进步显著。当在所有数据点上进行计算时,预测的 R2 增加到 0.9。对于 PW 的每一个区间,除了降水较小的区间,计算得到的 R2 值几乎都接近 0.80。

图 5: Org-NN 预测结果图

D :PW bin 上粗粒度降水平均值
E :降水的概率密度函数示意图
F:图 D 中每个纬度和经度位置在时间步长上计算得出的 R2 值。图中的白色区域表示降水小于 0.05 毫米/小时,被排除在模型的输入之外。除未达到降水阈值的点的附近区域外,Org-NN 在大部分区域的 R2 值显著高于 0.8。

实验团队比较了 Org-NN 和高分辨率降水模型的真实降水的概率密度函数,对 Org-NN 的性能进一步量化。结果发现,Org-NN 完全捕捉到了概率密度函数,包括它分布的尾部,也就是对应着极端降水的部分。这说明 Org-NN 能够准确预测极端降水的情况

实验团队所得结果表明,通过将 org 纳入 input,降水预测得到了显著的改善。这表明了,在当前的气候模型中,亚网格尺度结构可能是对流和降水参数化缺失的重要信息

实验流程总结

图 6: 实验流程概览

A :数据处理过程:粗粒度化高分辨率数据
B :Baseline-NN:该网络接收粗尺度变量 (如 SST 和 PW) 作为 input,并预测粗尺度降水。
C:Org-NN : 左图显示了自动编码器,它接收高分辨率 PW 作为 input,并在通过瓶颈后对其进行重建。右图显示了预测粗尺度降水的神经网络。

传统气候模型变革在即

本次实验的团队来自 Learning the Earth with Artificial Intelligence and Physics (LEAP) ,这是哥伦比亚大学于 2021 年启动的 NSF 科学与技术中心,其主要研究策略就是结合物理建模与机器学习,利用气候科学、气候模拟的专业知识与尖端的机器学习算法,改进近期气候预测。这对气候科学与数据科学的发展都有所增益。

LEAP 实验室部分成员简介

|实验室官网:https://leap.columbia.edu

目前,研究人员正在将他们的机器学习方法应用于气候模型中,以改进降水强度和变异性的预测,并使科学家能够在全球变暖背景下,更准确地预测水循环和极端天气模式的变化

同时,这项研究还开辟了新的研究方向,例如探索降水具有记忆效应的可能性,即大气保留有关最近天气条件的信息,进而影响后续的大气条件。这种新方法可能在降水模拟之外具有广泛的应用,如对冰盖和海洋表面进行更好的模拟。

本文首发于 HyperAI 超神经微信公众平台~

相关推荐
兰亭妙微37 分钟前
用户体验的真正边界在哪里?对的 “认知负荷” 设计思考
人工智能·ux
13631676419侯43 分钟前
智慧物流与供应链追踪
人工智能·物联网
TomCode先生1 小时前
MES 离散制造核心流程详解(含关键动作、角色与异常处理)
人工智能·制造·mes
zd2005721 小时前
AI辅助数据分析和学习了没?
人工智能·学习
johnny2331 小时前
强化学习RL
人工智能
乌恩大侠1 小时前
无线网络规划与优化方式的根本性变革
人工智能·usrp
放羊郎1 小时前
基于萤火虫+Gmapping、分层+A*优化的导航方案
人工智能·slam·建图·激光slam
王哈哈^_^1 小时前
【数据集+完整源码】水稻病害数据集,yolov8水稻病害检测数据集 6715 张,目标检测水稻识别算法实战训推教程
人工智能·算法·yolo·目标检测·计算机视觉·视觉检测·毕业设计
SEOETC2 小时前
数字人技术:虚实交融的未来图景正在展开
人工智能
boonya2 小时前
从阿里云大模型服务平台百炼看AI应用集成与实践
人工智能·阿里云·云计算