手撕 Transformer (1):Transformer 的结构拆解

在手撕 Transformer 之前,我们要先了解一下 Transformer 的结构。乍一看,它的结构有点复杂,其实还好。我们分开看就可以了,可以把 Transformer 看成四个部分:输入部分、输出部分、编码器部分、解码器部分。这篇文章不讲每个部分的作用只做拆解,每个部分的作用将在后续文章详细说明。可以带着问题去读后续文章。

输入部分

如下图所示,Transformer 的输入部分分为两部分,一部分是源文本嵌入层(图中 Inuput Embedding)+ 位置编码(图中 Positional Encoding),另一部分是目标文本嵌入层(图中 Output Embedding)+ 位置编码(图中 Positional Encoding)

输出部分

如下图所示,Transformer 的输出部分由 Linear 和 Softmax 组成。

编码器

如下图所示,Transformer 的编码器由 N 个编码器层(Encoder Layer)组成,每个编码器层由 2 个子层组成。第一个子层由一个多头自注意力 (Multi-Head Self-Attention,图中 Multi-Head Attention)和一个层归一化 (Layer Normalization,图中为 Norm),以及一个残差连接组成。第二个子层由一个前馈层 (图中 Feed Forward)和一个层归一化 (图中 Norm),以及一个残差连接组成。

解码器

如下图所示,Transformer 的解码器由 N 个解码器层(Decoder Layer)组成,每个解码器层由 3 个子层组成。第一个子层由一个掩码多头自注意力 (Masked Multi-Head Self-Attention,图中 Masked Multi-Head Attention)和一个层归一化,以及一个残差连接组成。第二个子层由一个多头注意力(不是自注意力,而是交叉注意力 ,图中 Multi-Head Attention)和一个层归一化,以及一个残差连接组成。第三个子层由一个前馈层 和一个层归一化,以及一个残差连接组成。

文章链接

相关推荐
萤火阳光2 小时前
01|OpenClaw 概述与环境安装:从零认识 AI Agent 框架
人工智能
首席数智官2 小时前
AI CRM 2.0时代:SaaS厂商的生死局
大数据·人工智能·物联网
Yao.Li2 小时前
PVN3D 训练与评估代码流程详解
人工智能·3d
前端大波2 小时前
Vue 项目中让 AI 更稳:AGENTS.md + Prompt 模板实践
vue.js·人工智能·prompt
珠海西格电力2 小时前
零碳园区能源互联技术路径适配方案的成本效益分析
大数据·人工智能·架构·智慧城市·能源
卡梅德生物科技小能手2 小时前
深度解析免疫靶点CD28(CD28分子):从双信号机制到药物研发的技术全景
经验分享·深度学习·生活
Daydream.V2 小时前
OpenCV——DNN模块实现风格迁移
人工智能·opencv·dnn
jinglong.zha2 小时前
OpenClaw核心概念速览
人工智能·ai·大模型·openclaw·养龙虾
金融小师妹2 小时前
AI利率路径重估:降息预期消退下,金价月度回撤超14%深度解析
深度学习·svn·逻辑回归·能源