深度学习有意思的探讨系列——Self-Attention那么为什么要进行缩放呢? 为什么很大的值,不利于梯度的传播?为什么使用维度的根号来进行缩放?

我自己做了一个视频,欢迎大家一起探讨:

深度学习有意思的探讨系列------Self-Attention那么为什么要进行缩放呢? 为什么很大的值,不利于梯度的传播?为什么使用维度的根号来进行缩放?_哔哩哔哩_bilibili

softmax又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展现出来。它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类!假设我们有一个数组,V,Vi表示V中的第i个元素,那么这个元素的softmax值就是

参考资料:(很详细,能看懂)

transformer中的缩放点积注意力为什么要除以根号d_transformer 根号d-CSDN博客

大模型面试系列-基础面试问题(1) - 知乎 (zhihu.com)

为什么在进行softmax之前需要对attention进行scaled(为什么除以 d_k的平方根)_attention为什么要除以根号d-CSDN博客

softmax详解-CSDN博客

相关推荐
狂放不羁霸11 天前
组会 | Attention 中有意思的部分
深度学习·自注意力机制
AI完全体1 个月前
【AI知识点】三种不同架构的大语言模型(LLMs)的区别
人工智能·深度学习·机器学习·语言模型·自然语言处理·注意力机制·自注意力机制
shuaixio3 个月前
【VectorNet】vectornet网络学习笔记
gnn·自注意力机制·mlp·vectornet·子图构建·全局图构建
逐梦苍穹3 个月前
Self-Attention流程的代码实现【python】
开发语言·人工智能·python·自然语言处理·自注意力机制·self-attention
JOYCE_Leo1610 个月前
Self-Attention 和 Multi-Head Attention 的区别——附最通俗理解!!
深度学习·神经网络·transformer·自注意力机制·多头注意力机制
机器学习之心1 年前
分类预测 | Matlab实现KOA-CNN-BiLSTM-selfAttention多特征分类预测(自注意力机制)
cnn-bilstm·自注意力机制·多特征分类预测·koa-cnn-bilstm·selfattention
机器学习之心1 年前
分类预测 | Matlab实现KOA-CNN-GRU-selfAttention多特征分类预测(自注意力机制)
cnn-gru·自注意力机制·多特征分类预测·koa-cnn-gru·selfattention
机器学习之心1 年前
分类预测 | Matlab实现KOA-CNN-BiGRU-selfAttention多特征分类预测(自注意力机制)
koa-cnn-bigru·自注意力机制·多特征分类预测·selfattention
Struart_R1 年前
NLP(2)--Transformer
人工智能·深度学习·自然语言处理·transformer·自注意力机制