认识Transformer:入门知识

视频链接:

https://www.youtube.com/watch?v=ugWDIIOHtPA\&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4\&index=60

文章目录

      • [Self-Attention layer](#Self-Attention layer)
      • [Multi-head self-attention](#Multi-head self-attention)
      • [Positional encoding](#Positional encoding)
      • [Seq2Seq with Attention](#Seq2Seq with Attention)
      • Transformer
      • [Universal Transformer](#Universal Transformer)

Seq2Seq

RNN不容易被平行化

提出用CNN来代替RNN,CNN 可以平行化,但是需要的层数比较深,才能看完所有的输入内容。

Self-Attention layer

b1 到b4 是可以同时被算出。

可以用来取代RNN。

来源: Attention is all you need

然后用每一个a 去对每个k 做attention



加速的矩阵乘法过程

Multi-head self-attention

不同的head 可以关注不同的内容,达到一个更好的注意力效果。

Positional encoding

self-attention 没有考虑位置信息。

因此需要再ai的同时加ei,表示位置信息,有人工控制。

Seq2Seq with Attention

Transformer

Universal Transformer

相关推荐
业精于勤的牙几秒前
浅谈:算法中的斐波那契数(六)
人工智能·算法
七夜zippoe2 分钟前
NPU存储体系 数据在芯片内的旅程与分层优化策略
人工智能·昇腾·cann·ascend c·l1 buffer
IT_陈寒8 分钟前
JavaScript性能优化:5个V8引擎隐藏技巧让你的代码提速50%
前端·人工智能·后端
AI架构师易筋8 分钟前
模型上下文协议(MCP)完全指南:从AI代理痛点到实战开发
人工智能·microsoft·语言模型·llm·mcp
Robot侠11 分钟前
视觉语言导航从入门到精通(二)
开发语言·人工智能·python·llm·vln
qdprobot11 分钟前
齐护AiTall pro ESP32S3 小智AI对话 MQTT MCP 开发板Mixly Scratch Steam图形化编程创客教育
人工智能·mqtt·scratch·mixly·mcp·小智ai·齐护机器人aitall pro
程砚成12 分钟前
美容行业的未来:当科技照进美与健康
大数据·人工智能
AI科技星14 分钟前
质量定义方程的物理数学融合与求导验证
数据结构·人工智能·算法·机器学习·重构
javaforever_cn18 分钟前
AI Agent 智能体与MCP开发实践-基于Qwen3大模型-王晓华 案例实战 第二章
人工智能
deephub18 分钟前
llama.cpp Server 引入路由模式:多模型热切换与进程隔离机制详解
人工智能·python·深度学习·llama