Transformer(一)---背景介绍及架构介绍

目录

一、Transformer的背景介绍

[1.1 Transformer的诞生](#1.1 Transformer的诞生)

[1.2 Transformer的优势](#1.2 Transformer的优势)

[1.3 Transformer的市场](#1.3 Transformer的市场)

二、认识Transformer架构

[2.1 Transformer模型的作用](#2.1 Transformer模型的作用)

[2.2 Transformer总体架构图](#2.2 Transformer总体架构图)

[2.2.1 Transformer总体架构](#2.2.1 Transformer总体架构)

[2.2.2 输入部分包含](#2.2.2 输入部分包含)

[2.2.3 输出部分包含](#2.2.3 输出部分包含)

[2.2.4 编码器部分包含](#2.2.4 编码器部分包含)

[2.2.5 解码器部分包含](#2.2.5 解码器部分包含)


一、Transformer的背景介绍

1.1 Transformer的诞生

2018年10月,Google发出一篇论文《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》,BERT模型横空出世,并横扫NLP领域11项任务的最佳成绩!

论文地址:https://arxiv.org/pdf/1810.04805.pdf

而在BERT中发挥重要作用的结构就是Transformer,之后又相继出现XLNET,roBERT等模型击败了BERT,但是他们的核心没有变,仍然是Transformer

1.2 Transformer的优势

相比之前占领市场的LSTM和GRU模型,Transformer有两个显著的优势:

1、Transformer能够利用分布式GPU进行并行训练,提升模型训练效率。

2、在分析预测更长的文本时,捕捉间隔较长的语义关联效果更好。

1.3 Transformer的市场

在著名的SOTA机器翻译榜单上, 几乎所有排名靠前的模型都使用Transformer,其基本上可以看作是工业界的风向标, 市场空间自然不必多说!

二、认识Transformer架构

2.1 Transformer模型的作用

基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务, 如机器翻译, 文本生成等. 同时又可以构建预训练语言模型,用于不同任务的迁移学习.

在接下来的架构分析中, 我们将假设使用Transformer模型架构处理从一种语言文本到另一种语言文本的翻译工作, 因此很多命名方式遵循NLP中的规则. 比如: Embeddding层将称作文本嵌入层, Embedding层产生的张量称为词嵌入张量, 它的最后一维将称作词向量等.

2.2 Transformer总体架构图

2.2.1 Transformer总体架构

输入部分

输出部分

编码器部分

解码器部分

2.2.2 输入部分包含

源文本嵌入层及其位置编码器

目标文本嵌入层及其位置编码器

组成要素:

Word Embedding:将文本转换为词向量表示

Position Encoding:添加位置信息编码(因为Transformer没有RNN的天然顺序性)

2.2.3 输出部分包含

线性层

softmax层

2.2.4 编码器部分包含

由N个编码器层堆叠而成

每个编码器层由两个子层连接结构组成

第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接

第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

层级结构:

由6个相同编码器层堆叠(原始论文设定)

每个编码器层包含两个子层:

  • 多头自注意力子层:
    • 采用Q=K=V的自注意力机制
    • 配合Add & Norm操作(残差连接+规范化)
  • 前馈全连接子层:
    • 包含两个全连接层
    • 同样有Add & Norm操作

2.2.5 解码器部分包含

由N个解码器层堆叠而成

每个解码器层由三个子层连接结构组成

第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接

第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接

第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

层级结构:

同样由6个解码器层堆叠

每个解码器层包含三个子层:

  • 掩码多头自注意力子层:
    • 带掩码的自注意力机制(防止信息泄露)
  • 多头注意力子层:
    • 接收编码器输出的K和V
    • 使用解码器自身的Q
  • 前馈全连接子层:
    • 结构与编码器相同

关键区别:相比编码器多一个注意力子层,用于处理编码器输出信息

相关推荐
Slaughter信仰12 分钟前
图解大模型_生成式AI原理与实战学习笔记前四张问答(7题)
人工智能·笔记·学习
龙腾亚太21 分钟前
大模型十大高频问题之五:如何低成本部署大模型?有哪些开源框架推荐?
人工智能·langchain·llm·智能体·大模型培训
信息快讯31 分钟前
【人工智能与数据驱动方法加速金属材料设计与应用】
人工智能·材料工程·金属材料·结构材料设计
c#上位机1 小时前
halcon图像增强——emphasize
图像处理·人工智能·计算机视觉·c#·上位机·halcon
老蒋新思维1 小时前
创客匠人峰会洞察:私域 AI 化重塑知识变现 —— 创始人 IP 的私域增长新引擎
大数据·网络·人工智能·网络协议·tcp/ip·创始人ip·创客匠人
哥布林学者1 小时前
吴恩达深度学习课程四:计算机视觉 第一周:卷积基础知识(三)简单卷积网络
深度学习·ai
知行力1 小时前
【GitHub每日速递 20251209】Next.js融合AI,让draw.io图表创建、修改、可视化全靠自然语言!
javascript·人工智能·github
冷yan~2 小时前
OpenAI Codex CLI 完全指南:AI 编程助手的终端革命
人工智能·ai·ai编程
菜鸟‍2 小时前
【论文学习】通过编辑习得分数函数实现扩散模型中的图像隐藏
人工智能·学习·机器学习