GPT是什么?直观解释Transformer | 深度学习第5章 【3Blue1Brown 官方双语】

【官方双语】GPT是什么?直观解释Transformer | 深度学习第5章

0:00 - 预测,采样,重复:预训练/生成式/Transformer模型

3:03 - Transformer 的内部结构

6:36 - 本期总述

7:20 - 深度学习的大框架

12:27 - GPT的第一层:词嵌入为向量(embedding)

18:25 - 嵌入空间不仅代表词,还能包含上下文信息

20:22 - GPT的最后一层:向量解码为词(Unembedding)

22:22 - 带温度的 Softmax 函数

26:03 - 下期预告:深入注意力机制

1.0. GPT的解释





预测后续内容

  • 视频重要内容

1.1 Token的解释







词的含义不同(以model举例)

注意力模块的工作:


后续是接多层感知器(MLP)或者叫做前馈神经网络:





深度学习系列课程

1.2 权重



八个类别:



1.3 词嵌入






几何角度理解:



举个例子:



  • 点积



几何角度:
















1.4 上下文长度







1.5 输出




  • 涉及两个步骤





1.6 解嵌入矩阵





1.7 Softmax




















下一章:Attention

相关推荐
ezl1fe2 分钟前
第零篇:把 Agent 跑起来的最小闭环
人工智能·后端·agent
说私域5 分钟前
开源链动2+1模式AI智能名片S2B2C商城小程序在竞争激烈的中低端面膜服装行业中的应用与策略
大数据·人工智能·小程序
佛喜酱的AI实践7 分钟前
Claude Code配置魔法:从单人编程到专属AI团队协作
人工智能·claude
向阳花开_miemie8 分钟前
Android音频学习(二十二)——音频接口
学习·音视频
文心快码BaiduComate9 分钟前
文心快码Comate3.5S更新,用多智能体协同做个健康管理应用
前端·人工智能·后端
叶楊11 分钟前
PEFT适配器加载
人工智能·深度学习·机器学习
哪吒编程16 分钟前
谁是最强编程大模型?横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro
gpt·chatgpt·claude
Tezign_space17 分钟前
AI用户洞察新纪元:atypica.AI如何重塑商业决策逻辑
人工智能·ai智能体·atypica
却道天凉_好个秋19 分钟前
OpenCV(十一):色彩空间转换
人工智能·opencv·计算机视觉
胡萝卜3.024 分钟前
深入理解string底层:手写高效字符串类
开发语言·c++·学习·学习笔记·string类·string模拟实现