深度学习有意思的探讨系列——Self-Attention那么为什么要进行缩放呢？为什么很大的值，不利于梯度的传播？为什么使用维度的根号来进行缩放？

思考实践2023-12-23 3:15

我自己做了一个视频，欢迎大家一起探讨：

深度学习有意思的探讨系列------Self-Attention那么为什么要进行缩放呢？为什么很大的值，不利于梯度的传播？为什么使用维度的根号来进行缩放？_哔哩哔哩_bilibili

softmax又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广，目的是将多分类的结果以概率的形式展现出来。它将多个神经元的输出，映射到（0,1）区间内，可以看成概率来理解，从而来进行多分类！假设我们有一个数组，V，Vi表示V中的第i个元素，那么这个元素的softmax值就是

参考资料：(很详细，能看懂)

transformer中的缩放点积注意力为什么要除以根号d_transformer 根号d-CSDN博客

大模型面试系列-基础面试问题（1） - 知乎 (zhihu.com)

为什么在进行softmax之前需要对attention进行scaled（为什么除以 d_k的平方根）_attention为什么要除以根号d-CSDN博客

softmax详解-CSDN博客

上一篇：Axure中继器的基本使用

下一篇：CSS新手入门笔记整理：CSS定位布局

热门推荐

01UV安装并设置国内源 02KGG转MP3工具|非KGM文件|解密音频 03Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 04【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07TRAE Rules 实践：为项目配置 6A 工作流 08全球最强模型Grok4，国内已可免费使用！（附教程）09NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 10TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践