认识Transformer：入门知识

_Summer tree2023-08-16 16:16

视频链接：

https://www.youtube.com/watch?v=ugWDIIOHtPA\&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4\&index=60

文章目录

- - [Self-Attention layer](#Self-Attention layer)
  - [Multi-head self-attention](#Multi-head self-attention)
  - [Positional encoding](#Positional encoding)
  - [Seq2Seq with Attention](#Seq2Seq with Attention)
  - Transformer
  - [Universal Transformer](#Universal Transformer)

Seq2Seq

RNN不容易被平行化

提出用CNN来代替RNN，CNN 可以平行化，但是需要的层数比较深，才能看完所有的输入内容。

Self-Attention layer

b1 到b4 是可以同时被算出。

可以用来取代RNN。

来源： Attention is all you need

然后用每一个a 去对每个k 做attention

加速的矩阵乘法过程

Multi-head self-attention

不同的head 可以关注不同的内容，达到一个更好的注意力效果。

Positional encoding

self-attention 没有考虑位置信息。

因此需要再ai的同时加ei，表示位置信息，有人工控制。

Seq2Seq with Attention

Transformer

Universal Transformer

上一篇：预训练GNN：GPT-GNN Generative Pre-Training of Graph Neural Networks

下一篇：使用 BERT 进行文本分类（02/3）

热门推荐

01两千字总结：Codex 国内如何安装和使用的教程，以及如何设置中文回答 02BongoCat - 跨平台键盘猫动画工具 03GitHub 镜像站点 04UV安装并设置国内源 05GitLab 零基础入门指南：从安装到项目管理全流程 06Linux下V2Ray安装配置指南 0746个Nano-banana 精选提示词，持续更新中 082025羊城杯网络安全大赛 wp 09智能库存管理的需求预测模型：从业务痛点到落地代码的完整实践 10UV 工具安装与国内镜像源配置指南