认识Transformer:入门知识

视频链接:

https://www.youtube.com/watch?v=ugWDIIOHtPA\&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4\&index=60

文章目录

      • [Self-Attention layer](#Self-Attention layer)
      • [Multi-head self-attention](#Multi-head self-attention)
      • [Positional encoding](#Positional encoding)
      • [Seq2Seq with Attention](#Seq2Seq with Attention)
      • Transformer
      • [Universal Transformer](#Universal Transformer)

Seq2Seq

RNN不容易被平行化

提出用CNN来代替RNN,CNN 可以平行化,但是需要的层数比较深,才能看完所有的输入内容。

Self-Attention layer

b1 到b4 是可以同时被算出。

可以用来取代RNN。

来源: Attention is all you need

然后用每一个a 去对每个k 做attention



加速的矩阵乘法过程

Multi-head self-attention

不同的head 可以关注不同的内容,达到一个更好的注意力效果。

Positional encoding

self-attention 没有考虑位置信息。

因此需要再ai的同时加ei,表示位置信息,有人工控制。

Seq2Seq with Attention

Transformer

Universal Transformer

相关推荐
数澜悠客1 分钟前
AI与IoT携手,精准农业未来已来
人工智能·物联网
猎板PCB黄浩12 分钟前
AI优化高频PCB信号完整性:猎板PCB的技术突破与应用实践
人工智能
机器学习之心18 分钟前
SHAP分析!Transformer-GRU组合模型SHAP分析,模型可解释不在发愁!
深度学习·gru·transformer·shap分析
Icoolkj18 分钟前
可灵 AI:开启 AI 视频创作新时代
人工智能·音视频
RK_Dangerous35 分钟前
【深度学习】计算机视觉(18)——从应用到设计
人工智能·深度学习·计算机视觉
AI大模型顾潇1 小时前
[特殊字符] 本地部署DeepSeek大模型:安全加固与企业级集成方案
数据库·人工智能·安全·大模型·llm·微调·llama
_Itachi__1 小时前
深入理解目标检测中的关键指标及其计算方法
人工智能·目标检测·目标跟踪
Stara05111 小时前
基于注意力机制与iRMB模块的YOLOv11改进模型—高效轻量目标检测新范式
人工智能·python·深度学习·神经网络·目标检测·计算机视觉·yolov11
X Y O2 小时前
神经网络初步学习——感知机
人工智能·神经网络·学习·感知机
scdifsn2 小时前
动手学深度学习12.4.硬件-笔记&练习(PyTorch)
pytorch·笔记·深度学习·缓存·内存·硬盘·深度学习硬件