Transformer细节剖析(10): Transformer中用嵌入矩阵的转置作为线性层参数 的问题

​​​​​​

目录

[1 嵌入矩阵的转置作为线性层参数的问题](#1 嵌入矩阵的转置作为线性层参数的问题)

[2 实际使用时的注意事项](#2 实际使用时的注意事项)


abstract:

Transformer中嵌入矩阵的转置作为线性层参数

1 嵌入矩阵的转置作为线性层参数的问题

在看transformer的学习视频时,我看视频里面说了个反嵌入层,然后去查了下,结果发现竟然这个反嵌入层就是作为线性层的,于是理解了一下,然后了下面的笔记。

2 实际使用时的注意事项

  1. 在原始Transformer论文中,嵌入权重乘以dmodel​​,输出层使用相同的缩放

  2. 并非所有Transformer变体都严格遵循这一设计(如某些模型使用独立的输出投影层)

  3. 在实现中有时会添加额外的偏置项

相关推荐
渡我白衣1 小时前
哈希的暴力美学——std::unordered_map 的底层风暴、扩容黑盒与哈希冲突终极博弈
java·c语言·c++·人工智能·深度学习·算法·哈希算法
天天找自己2 小时前
TransNeXt 深度解析:聚合注意力机制的突破性视觉骨干网络
人工智能·pytorch·python·深度学习·神经网络
极客BIM工作室2 小时前
Sora模型双路径压缩网络详解
人工智能·深度学习
_codemonster2 小时前
深度学习实战(基于pytroch)系列(四十三)深度循环神经网络pytorch实现
pytorch·rnn·深度学习
_codemonster3 小时前
深度学习实战(基于pytroch)系列(四十二)双向循环神经网络pytorch实现
pytorch·rnn·深度学习
太空的旅行者3 小时前
wsl2如何继承Windows网络代理
深度学习·ubuntu
海边夕阳20063 小时前
【每天一个AI小知识】:什么是目标检测?
人工智能·python·深度学习·目标检测·机器学习·计算机视觉·目标跟踪
cyyt3 小时前
深度学习周报(11.24~11.30)
人工智能·深度学习
Blossom.1183 小时前
基于Mamba-2的实时销量预测系统:如何用选择性状态空间干掉Transformer的O(n²)噩梦
人工智能·python·深度学习·react.js·机器学习·设计模式·transformer