Transformer细节剖析(10): Transformer中用嵌入矩阵的转置作为线性层参数的问题

陈洪伟2025-12-01 12:00

目录

[1 嵌入矩阵的转置作为线性层参数的问题](#1 嵌入矩阵的转置作为线性层参数的问题)

[2 实际使用时的注意事项](#2 实际使用时的注意事项)

abstract：

Transformer中嵌入矩阵的转置作为线性层参数

1 嵌入矩阵的转置作为线性层参数的问题

在看transformer的学习视频时，我看视频里面说了个反嵌入层，然后去查了下，结果发现竟然这个反嵌入层就是作为线性层的，于是理解了一下，然后了下面的笔记。

2 实际使用时的注意事项

在原始Transformer论文中，嵌入权重乘以dmodel，输出层使用相同的缩放
并非所有Transformer变体都严格遵循这一设计（如某些模型使用独立的输出投影层）
在实现中有时会添加额外的偏置项

上一篇：医疗预约小程序原型设计

下一篇：Matlab一维光子晶体能带求解：PWE FDTD及传输矩阵法

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw + 飞书（Feishu）环境搭建指南 04Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 05小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）06Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 07OpenClaw优化飞书API 额度已耗尽问题 08Window 10部署openclaw报错node.exe : npm error code 128 09【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 10OpenClaw大龙虾机器人完整安装教程