Transformer(一)---背景介绍及架构介绍

目录

一、Transformer的背景介绍

[1.1 Transformer的诞生](#1.1 Transformer的诞生)

[1.2 Transformer的优势](#1.2 Transformer的优势)

[1.3 Transformer的市场](#1.3 Transformer的市场)

二、认识Transformer架构

[2.1 Transformer模型的作用](#2.1 Transformer模型的作用)

[2.2 Transformer总体架构图](#2.2 Transformer总体架构图)

[2.2.1 Transformer总体架构](#2.2.1 Transformer总体架构)

[2.2.2 输入部分包含](#2.2.2 输入部分包含)

[2.2.3 输出部分包含](#2.2.3 输出部分包含)

[2.2.4 编码器部分包含](#2.2.4 编码器部分包含)

[2.2.5 解码器部分包含](#2.2.5 解码器部分包含)


一、Transformer的背景介绍

1.1 Transformer的诞生

2018年10月,Google发出一篇论文《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》,BERT模型横空出世,并横扫NLP领域11项任务的最佳成绩!

论文地址:https://arxiv.org/pdf/1810.04805.pdf

而在BERT中发挥重要作用的结构就是Transformer,之后又相继出现XLNET,roBERT等模型击败了BERT,但是他们的核心没有变,仍然是Transformer

1.2 Transformer的优势

相比之前占领市场的LSTM和GRU模型,Transformer有两个显著的优势:

1、Transformer能够利用分布式GPU进行并行训练,提升模型训练效率。

2、在分析预测更长的文本时,捕捉间隔较长的语义关联效果更好。

1.3 Transformer的市场

在著名的SOTA机器翻译榜单上, 几乎所有排名靠前的模型都使用Transformer,其基本上可以看作是工业界的风向标, 市场空间自然不必多说!

二、认识Transformer架构

2.1 Transformer模型的作用

基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务, 如机器翻译, 文本生成等. 同时又可以构建预训练语言模型,用于不同任务的迁移学习.

在接下来的架构分析中, 我们将假设使用Transformer模型架构处理从一种语言文本到另一种语言文本的翻译工作, 因此很多命名方式遵循NLP中的规则. 比如: Embeddding层将称作文本嵌入层, Embedding层产生的张量称为词嵌入张量, 它的最后一维将称作词向量等.

2.2 Transformer总体架构图

2.2.1 Transformer总体架构

输入部分

输出部分

编码器部分

解码器部分

2.2.2 输入部分包含

源文本嵌入层及其位置编码器

目标文本嵌入层及其位置编码器

组成要素:

Word Embedding:将文本转换为词向量表示

Position Encoding:添加位置信息编码(因为Transformer没有RNN的天然顺序性)

2.2.3 输出部分包含

线性层

softmax层

2.2.4 编码器部分包含

由N个编码器层堆叠而成

每个编码器层由两个子层连接结构组成

第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接

第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

层级结构:

由6个相同编码器层堆叠(原始论文设定)

每个编码器层包含两个子层:

  • 多头自注意力子层:
    • 采用Q=K=V的自注意力机制
    • 配合Add & Norm操作(残差连接+规范化)
  • 前馈全连接子层:
    • 包含两个全连接层
    • 同样有Add & Norm操作

2.2.5 解码器部分包含

由N个解码器层堆叠而成

每个解码器层由三个子层连接结构组成

第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接

第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接

第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

层级结构:

同样由6个解码器层堆叠

每个解码器层包含三个子层:

  • 掩码多头自注意力子层:
    • 带掩码的自注意力机制(防止信息泄露)
  • 多头注意力子层:
    • 接收编码器输出的K和V
    • 使用解码器自身的Q
  • 前馈全连接子层:
    • 结构与编码器相同

关键区别:相比编码器多一个注意力子层,用于处理编码器输出信息

相关推荐
zzywxc7872 小时前
AI赋能千行百业:金融、医疗、教育、制造业的落地实践与未来展望
java·人工智能·python·microsoft·金融·golang·prompt
星楠_0012 小时前
logits和softmax分布
人工智能·python·深度学习
大千AI助手2 小时前
二元锦标赛:进化算法中的选择机制及其应用
人工智能·算法·优化·进化算法·二元锦标赛·选择机制·适应生存
IT_陈寒2 小时前
Python开发者必坑指南:3个看似聪明实则致命的‘优化’让我损失了50%性能
前端·人工智能·后端
落羽的落羽3 小时前
【Linux系统】快速入门一些常用的基础指令
linux·服务器·人工智能·学习·机器学习·aigc
aopstudio4 小时前
llms.txt:为大模型打造的“网站说明书”
人工智能·python·llm·开发者工具
东方芷兰5 小时前
LLM 笔记 —— 01 大型语言模型修炼史(Self-supervised Learning、Supervised Learning、RLHF)
人工智能·笔记·神经网络·语言模型·自然语言处理·transformer
腾飞开源5 小时前
02_钉钉消息处理流程设计
人工智能·钉钉·agent智能体·ai智能体开发·全网首发·新课上线·消息处理器
K24B;5 小时前
多模态大语言模型OISA
人工智能·语言模型·语音识别·分割·多模态大语言模型