2025.12.28日周报

12.28日周报

一、文献阅读

题目信息

题目: 《Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting》
期刊/会议: NIPS 2015 (Advances in Neural Information Processing Systems)
作者: Xingjian Shi, Zhourong Chen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong, and Wang-chun Woo
发表时间: 2015
文章链接: https://arxiv.org/abs/1506.04214

摘要

本文针对降水临近预报这一极具挑战性的天气预报问题,提出了一种基于机器学习的解决方案。作者将降水临近预报建模为一个时空序列预测问题,即输入和预测目标均为时空序列。为了克服传统全连接长短期记忆网络无法有效提取空间特征的局限性,提出了卷积LSTM。通过将LSTM内部的状态到状态、输入到状态的转换操作由全连接改为卷积操作,ConvLSTM能够同时建立时间与空间的相关性模型。实验结果表明,ConvLSTM在合成的Moving MNIST数据集和真实的雷达回波数据集上,均能比FC-LSTM和当时的业务算法更好地捕捉时空相关性,显著提升了预报准确率。

创新点

  1. 提出了卷积LSTM网络架构,传统的FC-LSTM在处理图像序列时需要将二维数据展平为一维向量,导致空间信息丢失。ConvLSTM通过在输入-状态和状态-状态的转换中引入卷积操作,使得模型能够保留输入数据的空间结构,从而同时提取时间及空间特征。
  2. 将降水临近预报形式化为时空序列预测问题,不同于传统的基于光流法的方法,本文是一个端到端的可训练深度学习模型,直接从雷达回波图序列学习降水的演变规律。
  3. 设计了编码器-预测器结构,借鉴了机器翻译中的seq2seq模型,构建了由ConvLSTM堆叠而成的编码器网络和预测器网络,前者用于压缩历史时空信息,后者用于生成未来的预测序列。

网络框架

1. ConvLSTM 单元结构

ConvLSTM 是全连接 LSTM 的扩展。

在 ConvLSTM 中,所有的输入 X t X_t Xt、细胞输出 C t C_t Ct、隐藏状态 H t H_t Ht和门控信号( i t , f t , o t i_t, f_t, o_t it,ft,ot)都是三维张量,其最后两个维度为空间维度(行和列)。

核心公式中的矩阵乘法被替换为卷积操作

其中, ∗ * ∗ 表示卷积, ∘ \circ ∘ 表示哈达玛积: i t = σ ( W x i ∗ X t + W h i ∗ H t − 1 + W c i ∘ C t − 1 + b i ) f t = σ ( W x f ∗ X t + W h f ∗ H t − 1 + W c f ∘ C t − 1 + b f ) C t = f t ∘ C t − 1 + i t ∘ tanh ⁡ ( W x c ∗ X t + W h c ∗ H t − 1 + b c ) o t = σ ( W x o ∗ X t + W h o ∗ H t − 1 + W c o ∘ C t + b o ) H t = o t ∘ tanh ⁡ ( C t ) \begin{aligned} i_t &= \sigma(W_{xi} * \mathcal{X}t + W{hi} * \mathcal{H}{t-1} + W{ci} \circ \mathcal{C}{t-1} + b_i) \\ f_t &= \sigma(W{xf} * \mathcal{X}t + W{hf} * \mathcal{H}{t-1} + W{cf} \circ \mathcal{C}{t-1} + b_f) \\ \mathcal{C}t &= f_t \circ \mathcal{C}{t-1} + i_t \circ \tanh(W{xc} * \mathcal{X}t + W{hc} * \mathcal{H}{t-1} + b_c) \\ o_t &= \sigma(W{xo} * \mathcal{X}t + W{ho} * \mathcal{H}{t-1} + W{co} \circ \mathcal{C}_t + b_o) \\ \mathcal{H}_t &= o_t \circ \tanh(\mathcal{C}_t) \end{aligned} itftCtotHt=σ(Wxi∗Xt+Whi∗Ht−1+Wci∘Ct−1+bi)=σ(Wxf∗Xt+Whf∗Ht−1+Wcf∘Ct−1+bf)=ft∘Ct−1+it∘tanh(Wxc∗Xt+Whc∗Ht−1+bc)=σ(Wxo∗Xt+Who∗Ht−1+Wco∘Ct+bo)=ot∘tanh(Ct)

展示了输入数据和状态在 LSTM 单元内部的处理流程,核心区别在于使用了卷积操来处理二维空间数据,而非传统的全连接乘法。

2. 编码器-预测器模型

为了进行多步预测,模型采用了类似于seq2seq的结构。
编码网络 :由多层ConvLSTM组成,接收历史序列输入,将其压缩为隐藏状态张量。
预测网络 :同样由多层 ConvLSTM 组成,利用编码网络的最终状态作为初始状态,逐步生成未来的预测帧。

网络结构是左侧为编码路径,输入历史雷达图;右侧为预测路径,输出未来雷达图。

两个网络均由堆叠的ConvLSTM层构成

实验

作者在两个数据集上进行了实验:合成的Moving MNIST数据集和真实的雷达回波数据集。

实验一:Moving MNIST 数据集

该实验旨在验证模型学习简单时空移动规律的能力。数据集由两个在黑色背景上反弹的移动数字组成。

ConvLSTM相比FC-LSTM能够更清晰地预测出数字的移动轨迹和形状,FC-LSTM的预测结果不仅模糊,而且难以捕捉复杂的重叠运动。ConvLSTM尤其是多层结构,如3层表现最佳。

实验二:雷达回波数据集

使用香港天文台提供的雷达回波数据,包含97个雨天的记录。任务是根据过去5帧预测未来15帧。

预测指标为:降雨率均方误差 (MSE)、CSI (Critical Success Index)、FAR (False Alarm Rate)、POD (Probability of Detection)。

ConvLSTM 在各项指标上均优于 FC-LSTM 和当时业务上使用的基于光流法的ROVER算法。特别是在较长时效的预测中,ConvLSTM的优势更加明显,能够保持较好的降水结构。

结论

本文提出了ConvLSTM架构,用于解决降水临近预报问题。通过将卷积结构引入LSTM,该模型成功克服了传统RNN丢失空间信息的缺陷,能够有效地建立时空序列的相关性模型。实验证明,ConvLSTM在处理包含复杂时空变化的数据时,表现优于全连接LSTM和传统的非机器学习方法,为气象领域的时空序列预测提供了一个强大的基准模型。

不足与展望

虽然比FC-LSTM好,但在长时预测中,ConvLSTM生成的图像仍然会趋于模糊。这主要是由于使用了均方误差作为损失函数,导致模型倾向于输出平均化的结果。未来可以考虑引入生成对抗网络或更感知的损失函数来提升清晰度;相比FC-LSTM,卷积操作的计算开销较大,训练和推理速度相对较慢;目前的模型纯粹是数据驱动的,未结合大气动力学方程。未来的研究可以探索将物理约束融入网络设计或损失函数中,以提高预测的物理一致性。

相关推荐
程序员打怪兽19 小时前
详解Visual Transformer (ViT)网络模型
深度学习
CoovallyAIHub3 天前
仿生学突破:SILD模型如何让无人机在电力线迷宫中发现“隐形威胁”
深度学习·算法·计算机视觉
CoovallyAIHub3 天前
从春晚机器人到零样本革命:YOLO26-Pose姿态估计实战指南
深度学习·算法·计算机视觉
CoovallyAIHub3 天前
Le-DETR:省80%预训练数据,这个实时检测Transformer刷新SOTA|Georgia Tech & 北交大
深度学习·算法·计算机视觉
CoovallyAIHub3 天前
强化学习凭什么比监督学习更聪明?RL的“聪明”并非来自算法,而是因为它学会了“挑食”
深度学习·算法·计算机视觉
CoovallyAIHub3 天前
YOLO-IOD深度解析:打破实时增量目标检测的三重知识冲突
深度学习·算法·计算机视觉
用户1474853079743 天前
AI-动手深度学习环境搭建-d2l
深度学习
OpenBayes贝式计算4 天前
解决视频模型痛点,TurboDiffusion 高效视频扩散生成系统;Google Streetview 涵盖多个国家的街景图像数据集
人工智能·深度学习·机器学习
OpenBayes贝式计算4 天前
OCR教程汇总丨DeepSeek/百度飞桨/华中科大等开源创新技术,实现OCR高精度、本地化部署
人工智能·深度学习·机器学习
在人间耕耘4 天前
HarmonyOS Vision Kit 视觉AI实战:把官方 Demo 改造成一套能长期复用的组件库
人工智能·深度学习·harmonyos