nn.TransformerEncoder的输出为NaN值的原因及解决方法

问题描述:

当使用nn.TransformerEncoder时,即如下情况:

复制代码
实例化一个TransformerEncoder 
 self.encoder_layer = nn.TransformerEncoderLayer(d_model=encoder_in_dim, nhead=encoder_head,
                                                           dim_feedforward=encoder_ffnn_dim,
                                                           batch_first=batch_first)
 self.model = nn.TransformerEncoder(self.pre_encoder_layer, num_layers=pre_encoder_layer_num)
调用:
transformer_features =  self.model(embeddings, src_key_padding_mask=src_padding_mask)

transformer_features的值为NaN

原因在于src_padding_mask的传入出现均为0/False的情况!即attention---mask出现了全1/True行

由于我们在使用MultiheadAttention做self-attention时因为batch内序列长度不一致,难免需要使用mask

以pytorch自带的torch.nn.TransformerEncoder方法为例,其forward函数如下

复制代码
forward(src, mask=None, src_key_padding_mask=None)

这里的mask会送到torch.nn.TransformerEncoderLayer的forward函数:

python 复制代码
def forward(self, src: Tensor, src_mask: Optional[Tensor] = None, src_key_padding_mask: Optional[Tensor] = None) -> Tensor:
        src2 = self.self_attn(src, src, src, attn_mask=src_mask,key_padding_mask=src_key_padding_mask)[0]

之后送到MultiheadAttention 的forward函数的attn_mask参数,而这里做的是一个self attention。

此时若是attn_mask出现一整行都是True的情况,通过如下源码中的实现mask的方法可以看到:

python 复制代码
    if attn_mask is not None:
        if attn_mask.dtype == torch.bool:
            attn_output_weights.masked_fill_(attn_mask, float('-inf'))
        else:
            attn_output_weights += attn_mask

把权重矩阵中需要mask的位置置为负无穷,然后再按行做softmax,问题就在这里,把一个元素全是是负无穷的tensor送给softmax,就会得到一个全是NaN的tensor。然后NaN和任何数运算都是NaN,NaN会传染,再经过一轮self attention,输出的tensor就全成NaN了。

解决方法:避免attention mask中存在全1/True的行

相关推荐
星光技术人1 小时前
投机采样 Speculative Decoding 核心笔记
人工智能·笔记·深度学习·计算机视觉·语言模型·自动驾驶
倔强的胖蚂蚁1 小时前
Transformer 大模型原理 完整入门指南
人工智能·深度学习·云原生·transformer
动物园猫2 小时前
火焰与烟雾目标检测数据集分享(适用于YOLO系列深度学习分类检测任务)
深度学习·yolo·目标检测
动物园猫3 小时前
驾驶中的疲劳状态识别数据集分享(适用于YOLO系列深度学习分类检测任务)
深度学习·yolo·分类
张二娃同学3 小时前
专栏第01篇_深度学习导论
人工智能·python·深度学习·cnn
DragonnAi3 小时前
论文解读:SFINet 空间-频率统一学习框架用于多模态图像融合
深度学习·学习·计算机视觉
机器学习之心3 小时前
DBO-Transformer模型回归+SHAP分析+新数据预测+多输出!深度学习可解释分析(附MATLAB代码)
深度学习·回归·transformer·shap分析
tanis_20773 小时前
DeepSeek-TUI 也能读 PDF 了:Skill + MinerU CLI 终端文档解析实战
人工智能·后端·深度学习·pdf·csdn开发云
IJCAST4 小时前
Exploring the Frontiers of Complexity: Latest Research from IJCAST
人工智能·深度学习·神经网络·算法
AI视觉网奇4 小时前
数字人大模型 daVinci-MagiHuman
人工智能·深度学习