认识Transformer:入门知识

视频链接:

https://www.youtube.com/watch?v=ugWDIIOHtPA\&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4\&index=60

文章目录

      • [Self-Attention layer](#Self-Attention layer)
      • [Multi-head self-attention](#Multi-head self-attention)
      • [Positional encoding](#Positional encoding)
      • [Seq2Seq with Attention](#Seq2Seq with Attention)
      • Transformer
      • [Universal Transformer](#Universal Transformer)

Seq2Seq

RNN不容易被平行化

提出用CNN来代替RNN,CNN 可以平行化,但是需要的层数比较深,才能看完所有的输入内容。

Self-Attention layer

b1 到b4 是可以同时被算出。

可以用来取代RNN。

来源: Attention is all you need

然后用每一个a 去对每个k 做attention



加速的矩阵乘法过程

Multi-head self-attention

不同的head 可以关注不同的内容,达到一个更好的注意力效果。

Positional encoding

self-attention 没有考虑位置信息。

因此需要再ai的同时加ei,表示位置信息,有人工控制。

Seq2Seq with Attention

Transformer

Universal Transformer

相关推荐
gis分享者1 小时前
AI数字营销实测体验,GEO效果查询功能体验
人工智能·csdn·geo·数字营销·实测体验·效果查询
莱歌数字1 小时前
轻出20%性能:三维拓扑优化如何重塑无人机电子设备散热格局
人工智能·科技·制造·cae·散热
猿小猴子2 小时前
主流 AI IDE 之一的「DeepSeek-Reasonix 」介绍
人工智能·ai·deepseek·reasonix
装不满的克莱因瓶2 小时前
链式法则如何传递参数误差 —— 深入理解神经网络中的梯度传播
人工智能·python·深度学习·神经网络·数学·机器学习·ai
Anastasiozzzz2 小时前
从有限状态机到智能体图:传统 FSM 与 Agent Graph的演进
java·人工智能·python·ai
程序员cxuan7 小时前
为每个任务配一套 harness:Claude Code 里的动态工作流
人工智能
程序员cxuan8 小时前
Claude Fable 5 来了
人工智能·后端·程序员
云边云科技_云网融合8 小时前
云边云科技亮相 2026 WOD 制造业数智化博览会 云网融合赋能制造焕新
人工智能·科技·安全·制造
Σίσυφος19008 小时前
激光三角 光平面标定-多高度误差分析
人工智能·计算机视觉·平面
JS菌8 小时前
手写一个 AI Agent 全栈项目:从沙箱执行到子智能体的完整实现
前端·人工智能·后端