认识Transformer:入门知识

视频链接:

https://www.youtube.com/watch?v=ugWDIIOHtPA\&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4\&index=60

文章目录

      • [Self-Attention layer](#Self-Attention layer)
      • [Multi-head self-attention](#Multi-head self-attention)
      • [Positional encoding](#Positional encoding)
      • [Seq2Seq with Attention](#Seq2Seq with Attention)
      • Transformer
      • [Universal Transformer](#Universal Transformer)

Seq2Seq

RNN不容易被平行化

提出用CNN来代替RNN,CNN 可以平行化,但是需要的层数比较深,才能看完所有的输入内容。

Self-Attention layer

b1 到b4 是可以同时被算出。

可以用来取代RNN。

来源: Attention is all you need

然后用每一个a 去对每个k 做attention



加速的矩阵乘法过程

Multi-head self-attention

不同的head 可以关注不同的内容,达到一个更好的注意力效果。

Positional encoding

self-attention 没有考虑位置信息。

因此需要再ai的同时加ei,表示位置信息,有人工控制。

Seq2Seq with Attention

Transformer

Universal Transformer

相关推荐
机器之心几秒前
突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化
人工智能·openai
Juchecar1 分钟前
利用AI辅助"代码考古“操作指引
人工智能·ai编程
Juchecar7 分钟前
AI时代,如何在人机协作中保持代码的清晰性与一致性
人工智能·ai编程
掘金安东尼25 分钟前
被权重出卖的“脏数据”:GPT-oss 揭开的 OpenAI 中文训练真相
人工智能
Orange_sparkle36 分钟前
关于dify中http节点下载文件时,文件名不为原始文件名问题解决
人工智能·http·chatgpt·dify
王哈哈^_^44 分钟前
【完整源码+数据集】蓝莓数据集,yolo11蓝莓成熟度检测数据集 3023 张,蓝莓成熟度数据集,目标检测蓝莓识别算法系统实战教程
人工智能·算法·yolo·目标检测·计算机视觉·ai·视觉检测
盘古开天16661 小时前
通俗易懂:YOLO模型原理详解,从零开始理解目标检测
人工智能·yolo·目标检测
OpenBuild.xyz1 小时前
x402 生态系统:Web3 与 AI 融合的支付新基建
人工智能·web3
王哈哈^_^1 小时前
【完整源码+数据集】高空作业数据集,yolo高空作业检测数据集 2076 张,人员高空作业数据集,目标检测高空作业识别系统实战教程
人工智能·算法·yolo·目标检测·计算机视觉·目标跟踪·视觉检测
猿小猴子1 小时前
主流 AI IDE 之一的 Comate IDE 介绍
ide·人工智能·comate