LSTM新架构论文分享6：LSTM+Transformer融合

上述转自：深度之眼

1.Enhanced predictive modeling of hot rolling work roll wear usingTCN-LSTM-Attention

https://www.researchgate.net/profile/Hechuan-Song2/publication/378037785_Enhanced_predictive_modeling_of hot_roling_work_roll_wear _using_TCN-LSTM.Attention/links/66175c2439e7641c0ba9f3ad/Enhanced-predictive-modeling-of-hot-rolling-work-rol-wear-usingTCN-LSTM-Attention.pdf

论文中提出了一个基于TCN-LSTM-Attention的新型工作辊磨损预测模型。注意力机制的加入使得模型能够更有效地捕捉输入序列中不同部分之间的关系，这显著提高了预测性能，并降低了过拟合的风险。

2.1SwinLSTM: Improving Spatiotemporal Prediction Accuracy using Swinransformer and LSTM

https: /openaccess.thecvf.com/content/IccV2023/papers/Tang SwinLSTM Improving Spatiotemporal Prediction Accuracy using Swin Transformer and LSTM ICCV 2023 paper.pdf

https://github.com/SongTang-x/SwinLSTM

一、文章研究内容

（1）任务定位

面向时空序列预测（spatiotemporal prediction），即给定历史 T 帧二维/三维信号，预测未来若干帧。典型应用包括降水预报、交通流、人体动作合成等。

（2）核心思路

把 ConvLSTM 中的"卷积-门控"结构整体替换为 Swin Transformer + 简化 LSTM 的混合单元，使网络同时具备：

全局空间依赖建模能力（Swin 自注意力）

跨时间记忆能力（LSTM 门控）

（3）网络形态

SwinLSTM-B：单层单元，轻量级快速实验

SwinLSTM-D：堆叠多层，并加入 Patch Merging/Expanding 进行下采样-上采样，形成 U-Net 式深网络

两版本在 Warm-up 阶段用真实帧，Prediction 阶段用自回归输出，端到端最小化 L2 或 L1 损失。

（4）实验范围

四个公开数据集 Moving MNIST、TaxiBJ、Human3.6M、KTH；指标 MSE、MAE、SSIM。

与 ConvLSTM、PredRNN、E3D-LSTM、PhyDNet、CrevNet 等 10 余个代表性模型对比。

二、现有研究局限性

（1）局部感受野瓶颈

卷积操作本质局部，即使堆叠层数"理论"感受野扩大，实际有效范围仅为一小部分，难以捕获长距空间关联。

（2）全局依赖建模效率低

现有 CNN-RNN 组合需靠深层或大 kernel 才能扩大视野，参数-计算代价高，且仍不如自注意力直观高效。

（3）信息传递路径受限

多数 ConvLSTM 变体仅在隐藏状态做局部卷积，缺乏像素-区域间直接交互，导致复杂动态（如旋转、形变）捕捉不足。

三、文章创新点

(1) 新循环单元 SwinLSTM

首次把 Swin Transformer Block 嵌入到时序门控机制中，取代传统卷积；利用滑动窗口自注意力在"patch-级别"同时完成全局空间特征提取与时间记忆更新。

(2）统一时空依赖建模框架

同一套 Swin-Attention 参数既负责跨空间信息整合，又通过 LSTM 式 (C_t, H_t) 记忆链负责跨时间信息整合，实现真正"端到端"全局时空依赖学习。

（3）简洁深网络结构

提出 SwinLSTM-B/D 两种架构：

无需特殊训练技巧（课程学习、对抗损失等）

无需额外物理方程或外部标签

即可在四个数据集上取得 SOTA 或可比性能，相对 ConvLSTM 降低 MSE 20%--40%。

（4）良好扩展性与鲁棒性

消融实验显示：

解码层用转置卷积优于线性/双线性插值

patch size=2 or 4 即可，增大深度比增大 patch 更有效

10→20→40 帧长期外推仍保持清晰边缘与运动一致性，表明模型对误差累积不敏感。

SwinLSTM 用"Swin-Transformer 全局自注意力 + LSTM 门控记忆"取代 ConvLSTM 的局部卷积，显著提升了时空预测精度与长距依赖建模效率，在多个基准数据集上取得了目前最佳或极具竞争力的结果。

3.Learning-based NLOS Detection and Uncertainty Prediction of GNSSObservations with Transformer-Enhanced LSTM Network

https://arxiv.org/pdf/2309.00480.pdf

https://github.com/rwth-irt/DeepNLOSDetection

一、文章研究内容

任务定位

针对城市峡谷等多路径严重的场景，对 GNSS 原始观测进行两步实时

质量控制：

NLOS 信号检测（二分类：LOS vs. NLOS）

伪距误差预测（回归：给出 NLOS 带来的米级偏差及不确定性）

技术路线

将每 epoch 所有卫星的观测量（伪距、载波相位、信噪比、高度角等）组织成二维时空矩阵，提出 Transformer-Enhanced LSTM（TE-LSTM）网络：

LSTM 捕获卫星时序依赖

Transformer-style 自注意力在卫星间建立全局空间关联

联合输出 NLOS 概率与伪距误差分布参数（均值+方差）

数据与验证

自建香港 + 德国亚琛两个城市场景带标签数据集（利用 LiDAR 地图与多传感器后处理生成真值）

与经典 SVM/XGBoost、纯 LSTM、CNN-LSTM 等对比；同步在分布外（OOD）数据与实车定位滤波器中验证

二、现有研究局限性

传统模型假设简化

基于信噪比、仰角等单阈值或卡尔曼残差门控，难以刻画城市多路径复杂特征。

机器学习方法特征手工

需要人工设计统计量，且多数只利用单星单历元信息，忽略卫星间空间上下文与时间演化。

深度学习方法割裂时空

纯 LSTM/CNN 只建模时序，无法灵活捕获不同卫星间的动态关联

纯 Transformer 对短序列、小样本易过拟合，且计算量大

缺乏不确定性输出

既有深度网络大多只给出硬分类或点估计，未同时输出伪距误差方差，不利于后续滤波器权重调整。

三、文章创新点

TE-LSTM 混合架构首次用于 GNSS 质量评估

LSTM 处理每颗卫星的时序观测

Transformer 风格的多头自注意力在同一 epoch 内卫星间建立全局关联，实现时空联合建模

端到端输出 NLOS 概率 + 伪距误差均值与方差

卫星级自注意力掩膜设计

仅让可见卫星参与注意力计算，避免填充节点干扰，提升小样本与分布外鲁棒性。

LiDAR-地图辅助的自动标签流程

利用高精度点云地图与多传感器后处理，为伪距/载波相位逐历元打上 LOS/NLOS 标签，解决深度学习方法标签稀缺痛点。

不确定性耦合的状态估计闭环

将网络输出的误差方差实时送入因子图优化器，动态降低 NLOS 权重，显著抑制城市峡谷轨迹漂移。

系统级验证

不仅在测试集上精度/召回率优于 SVM、XGB、LSTM 等基线，还在分布外数据与实车定位滤波器中证明能有效避免轨迹发散。

本文提出 Transformer-Enhanced LSTM 网络，首次在 GNSS 观测层面实现卫星间全局注意力 + 时序记忆的联合建模，同步输出 NLOS 检测与伪距误差不确定性，并通过 LiDAR 标签流程与实车滤波器验证，显著提升城市环境定位鲁棒性。