技术栈

squeeze

西西弗Sisyphus
3 小时前
transformer·attention·unsqueeze·self-attention·残差·residual·squeeze
从零实现Transformer:第 4 部分 - Residual Connection的两种实现 Pre-LN 和 Post-LNflyfishPre-LN = Pre-Layer Normalization Post-LN = Post-Layer Normalization
我是有底线的