Transformer细节剖析(10): Transformer中用嵌入矩阵的转置作为线性层参数 的问题

​​​​​​

目录

[1 嵌入矩阵的转置作为线性层参数的问题](#1 嵌入矩阵的转置作为线性层参数的问题)

[2 实际使用时的注意事项](#2 实际使用时的注意事项)


abstract:

Transformer中嵌入矩阵的转置作为线性层参数

1 嵌入矩阵的转置作为线性层参数的问题

在看transformer的学习视频时,我看视频里面说了个反嵌入层,然后去查了下,结果发现竟然这个反嵌入层就是作为线性层的,于是理解了一下,然后了下面的笔记。

2 实际使用时的注意事项

  1. 在原始Transformer论文中,嵌入权重乘以dmodel​​,输出层使用相同的缩放

  2. 并非所有Transformer变体都严格遵循这一设计(如某些模型使用独立的输出投影层)

  3. 在实现中有时会添加额外的偏置项

相关推荐
MM_MS1 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
齐齐大魔王2 小时前
Pascal VOC 数据集
人工智能·深度学习·数据集·voc
Hcoco_me3 小时前
RNN(循环神经网络)
人工智能·rnn·深度学习
柠柠酱6 小时前
【深度学习Day5】决战 CIFAR-10:手把手教你搭建第一个“正经”的卷积神经网络 (附调参心法)
深度学习
gravity_w6 小时前
Hugging Face使用指南
人工智能·经验分享·笔记·深度学习·语言模型·nlp
Yeats_Liao7 小时前
MindSpore开发之路(二十六):系列总结与学习路径展望
人工智能·深度学习·学习·机器学习
UnderTurrets8 小时前
A_Survey_on_3D_object_Affordance
pytorch·深度学习·计算机视觉·3d
koo3648 小时前
pytorch深度学习笔记13
pytorch·笔记·深度学习
高洁018 小时前
CLIP 的双编码器架构是如何优化图文关联的?(3)
深度学习·算法·机器学习·transformer·知识图谱
lambo mercy9 小时前
无监督学习
人工智能·深度学习