Transformer细节剖析(10): Transformer中用嵌入矩阵的转置作为线性层参数 的问题

​​​​​​

目录

[1 嵌入矩阵的转置作为线性层参数的问题](#1 嵌入矩阵的转置作为线性层参数的问题)

[2 实际使用时的注意事项](#2 实际使用时的注意事项)


abstract:

Transformer中嵌入矩阵的转置作为线性层参数

1 嵌入矩阵的转置作为线性层参数的问题

在看transformer的学习视频时,我看视频里面说了个反嵌入层,然后去查了下,结果发现竟然这个反嵌入层就是作为线性层的,于是理解了一下,然后了下面的笔记。

2 实际使用时的注意事项

  1. 在原始Transformer论文中,嵌入权重乘以dmodel​​,输出层使用相同的缩放

  2. 并非所有Transformer变体都严格遵循这一设计(如某些模型使用独立的输出投影层)

  3. 在实现中有时会添加额外的偏置项

相关推荐
AndrewHZ3 小时前
【LLM技术全景】规模定律与模型演进:为什么模型越大越强?
人工智能·gpt·深度学习·语言模型·llm·openai·规模定律
手写码匠4 小时前
从零实现 Prompt 工程引擎:结构化提示、自动优化与多轮自省体系
人工智能·深度学习·算法·aigc
哈伦20194 小时前
第十二章 深度学习基础 案例:MLP实现银行单据手写数字识别
人工智能·深度学习·图像识别
lqqjuly4 小时前
MLA — 多头潜在注意力深度解析
深度学习·神经网络·算法
Black蜡笔小新5 小时前
企业AI算力工作站DLTM深度学习推理工作站零代码私有化重塑企业AI落地新模式
人工智能·深度学习
啦啦啦_99995 小时前
4. Transformer_4_输出部分
人工智能·深度学习·transformer
CV-deeplearning6 小时前
李沐论文精读合集:67 篇深度学习经典论文逐段精读,从 AlexNet 到 Sora,B 站播放百万级的 AI 自学圣经
gpt·大模型·transformer·李沐·论文精读·ai学习路线
DogDaoDao6 小时前
【GitHub】VoxCPM2 实战全解析:原理、部署与效果对比
深度学习·大模型·github·音频·语音模型·tss·文本生成语音
不考研当牛马7 小时前
Django 框架 深度学习
python·深度学习·django
春日见8 小时前
决策规划控制面经汇总
人工智能·深度学习·算法·机器学习·自动驾驶