认识Transformer:入门知识

视频链接:

https://www.youtube.com/watch?v=ugWDIIOHtPA\&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4\&index=60

文章目录

      • [Self-Attention layer](#Self-Attention layer)
      • [Multi-head self-attention](#Multi-head self-attention)
      • [Positional encoding](#Positional encoding)
      • [Seq2Seq with Attention](#Seq2Seq with Attention)
      • Transformer
      • [Universal Transformer](#Universal Transformer)

Seq2Seq

RNN不容易被平行化

提出用CNN来代替RNN,CNN 可以平行化,但是需要的层数比较深,才能看完所有的输入内容。

Self-Attention layer

b1 到b4 是可以同时被算出。

可以用来取代RNN。

来源: Attention is all you need

然后用每一个a 去对每个k 做attention



加速的矩阵乘法过程

Multi-head self-attention

不同的head 可以关注不同的内容,达到一个更好的注意力效果。

Positional encoding

self-attention 没有考虑位置信息。

因此需要再ai的同时加ei,表示位置信息,有人工控制。

Seq2Seq with Attention

Transformer

Universal Transformer

相关推荐
Jamence2 分钟前
多模态大语言模型arxiv论文略读(十一)
人工智能·语言模型·自然语言处理
weixin_4578858220 分钟前
DeepSeek与搜索引擎:AI生成内容如何突破“语义天花板”
人工智能·搜索引擎·ai·deepseek
拓端研究室TRL36 分钟前
Python贝叶斯回归、强化学习分析医疗健康数据拟合截断删失数据与参数估计3实例
开发语言·人工智能·python·数据挖掘·回归
国科安芯1 小时前
高安全等级车规芯片在星载控制终端上的应用
人工智能·嵌入式硬件·物联网·架构·汽车
Direct_Yang1 小时前
如何使用 DeepSeek 帮助自己的工作?
人工智能
汪子熙2 小时前
使用 Trae 开发一个演示勾股定理的动画演示
前端·人工智能·trae
小白学C++.2 小时前
大模型论文:CRAMMING TRAINING A LANGUAGE MODEL ON ASINGLE GPU IN ONE DAY(效率提升)-final
人工智能·语言模型·自然语言处理
Encarta19932 小时前
【语音识别】vLLM 部署 Whisper 语音识别模型指南
人工智能·whisper·语音识别
AWS官方合作商3 小时前
AWS Bedrock:开启企业级生成式AI的钥匙【深度解析】
大数据·人工智能·aws
神经星星3 小时前
【vLLM 学习】API 客户端
数据库·人工智能·机器学习