GPT是什么?直观解释Transformer | 深度学习第5章 【3Blue1Brown 官方双语】

【官方双语】GPT是什么?直观解释Transformer | 深度学习第5章

0:00 - 预测,采样,重复:预训练/生成式/Transformer模型

3:03 - Transformer 的内部结构

6:36 - 本期总述

7:20 - 深度学习的大框架

12:27 - GPT的第一层:词嵌入为向量(embedding)

18:25 - 嵌入空间不仅代表词,还能包含上下文信息

20:22 - GPT的最后一层:向量解码为词(Unembedding)

22:22 - 带温度的 Softmax 函数

26:03 - 下期预告:深入注意力机制

1.0. GPT的解释





预测后续内容

  • 视频重要内容

1.1 Token的解释







词的含义不同(以model举例)

注意力模块的工作:


后续是接多层感知器(MLP)或者叫做前馈神经网络:





深度学习系列课程

1.2 权重



八个类别:



1.3 词嵌入






几何角度理解:



举个例子:



  • 点积



几何角度:
















1.4 上下文长度







1.5 输出




  • 涉及两个步骤





1.6 解嵌入矩阵





1.7 Softmax




















下一章:Attention

相关推荐
点云SLAM30 分钟前
Eigen 中矩阵的拼接(Concatenation)与 分块(Block Access)操作使用详解和示例演示
人工智能·线性代数·算法·矩阵·eigen数学工具库·矩阵分块操作·矩阵拼接操作
悠哉悠哉愿意31 分钟前
【电赛学习笔记】MaixCAM 的OCR图片文字识别
笔记·python·嵌入式硬件·学习·视觉检测·ocr
木枷2 小时前
NAS-Bench-101: Towards Reproducible Neural Architecture Search
人工智能·物联网
BAOYUCompany2 小时前
暴雨服务器更懂人工智能+
运维·服务器·人工智能
飞哥数智坊2 小时前
Coze实战第17讲:工资条自动拆分+一对一邮件发送
人工智能·coze
cwn_2 小时前
自然语言处理NLP (1)
人工智能·深度学习·机器学习·自然语言处理
_Kayo_2 小时前
VUE2 学习笔记5 动态绑定class、条件渲染、列表过滤与排序
笔记·学习
waveee1232 小时前
学习嵌入式的第三十四天-数据结构-(2025.7.29)数据库
数据结构·数据库·学习
点云SLAM2 小时前
PyTorch中flatten()函数详解以及与view()和 reshape()的对比和实战代码示例
人工智能·pytorch·python·计算机视觉·3d深度学习·张量flatten操作·张量数据结构
智海观潮2 小时前
Unity Catalog与Apache Iceberg如何重塑Data+AI时代的企业数据架构
大数据·人工智能·ai·iceberg·catalog