GPT是什么？直观解释Transformer | 深度学习第5章【3Blue1Brown 官方双语】

TAICHIFEI2024-05-06 17:32

【官方双语】GPT是什么？直观解释Transformer | 深度学习第5章

0:00 - 预测，采样，重复：预训练/生成式/Transformer模型

3:03 - Transformer 的内部结构

6:36 - 本期总述

7:20 - 深度学习的大框架

12:27 - GPT的第一层：词嵌入为向量(embedding)

18:25 - 嵌入空间不仅代表词，还能包含上下文信息

20:22 - GPT的最后一层：向量解码为词(Unembedding)

22:22 - 带温度的 Softmax 函数

26:03 - 下期预告：深入注意力机制

1.0. GPT的解释

预测后续内容

视频重要内容

1.1 Token的解释

词的含义不同（以model举例）

注意力模块的工作：

后续是接多层感知器（MLP）或者叫做前馈神经网络：

深度学习系列课程

1.2 权重

八个类别：

1.3 词嵌入

几何角度理解：

举个例子：

点积

几何角度：

1.4 上下文长度

1.5 输出

涉及两个步骤

1.6 解嵌入矩阵

1.7 Softmax

下一章：Attention

上一篇：2024最新UI发卡盗U/支持多语言/更新UI界面/支持多个主流钱包

下一篇：Python系列一之excel的读取

热门推荐

01UV安装并设置国内源 02DeepSeek更新！速览DeepSeek V3.1新特性 03Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 04KGG转MP3工具|非KGM文件|解密音频 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 06【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）072025最新国内服务器可用docker源仓库地址大全（2025年8月更新）08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！10TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践