简单学习 --> GPT架构

GPT架构

GPT 架构本质是 Transformer 的纯解码器(Decoder‑Only)堆叠 ,用因果掩码 做自回归生成,核心是多头自注意力 + 前馈网络 + 残差与层归一化

使其在文本生成和对话任务中表现出色。这种架构的设计和其工作方式天然地适应了序列生成的需求。

编码器和解码器区别

编码器:理解整句话;解码器:逐字生成新句子

编码器 Encoder(只负责理解)

  • 结构:双向自注意力

  • 能看到全文所有字,前后都能关联

  • 作用:把原文压缩成语义特征

  • 适用:翻译输入、文本分类、理解内容

  • 代表模型:BERT

解码器 Decoder(只负责生成)

  • 结构:单向掩码自注意力

  • 只能看已经生成的字,看不到未来字

  • 作用:按顺序逐词输出文字

  • 适用:聊天、写诗、续写、回答

  • 代表模型:GPT 全系(纯解码器)

GPT为什么使用纯解码器

天生适配逐字生成,结构最简单、生成效果最优

1. 任务天生就是自回归续写

GPT 做聊天、问答、续写,都是按顺序一个字一个字往外吐

解码器自带因果掩码,天然只能看前面文字、预测下一个字

编码器双向看全文,没法顺序生成文本。

2. 结构极简,训练推理效率高
  • 纯 Decoder:一套模块反复堆叠,无编码器、无交叉注意力

  • 参数利用率高,大参数量下更容易收敛、提速

3. 上下文连贯能力更强

单向建模语序、语法、上下文逻辑,贴合人类说话习惯

越长对话、越长文本续写,纯解码器稳定性更好。

4. 对比一眼看懂
  • 纯编码器 (BERT) :理解分类强,不能生成

  • 编解码 (翻译):适合一对一一对应转换

  • 纯解码器 (GPT):自由创作、对话、长文本生成最强

GPT的核心优势

GPT 架构的核心是其单向注意力机制 ,这使其成为一个出色的自回归模型

单向注意力机制(GPT 核心)

一句话:只能看向过去,不能偷看未来

1. 定义

只允许当前 token 关注它前面所有 token屏蔽后面未生成的 token ,也叫因果掩码注意力

2. 原理:掩码遮掉未来位置
  • 注意力矩阵上三角全部屏蔽

  • 计算时只用到左侧历史文字

  • 右边还没生成的字,直接看不见

3. 和双向注意力对比
  • 单向注意力(GPT)

    往前看、时序顺序、适合

    生成文本

  • 双向注意力(BERT)

    前后都看、全局理解、适合

    分类阅读理解

4. 工作流程
  1. 输入一串依次出现的字词

  2. 每个字只和前面已出现的字算关联

  3. 根据历史语义,预测下一个字

  4. 逐字输出,不会逻辑错乱、剧透未来

5. 核心特点
  • 遵守语言先后顺序,符合人类说话逻辑

  • 保证自回归生成合法合规

  • 长对话上下文承接自然

  • 结构简单,大模型训练推理高效

所以为什么GPT要使用纯解码机制,就是配合单向注意力机制

单向自回归机制

依靠单向注意力约束视野,逐序逐个生成文本的模式

  1. 单向

    依托掩码注意力,每个字符仅能参照前文,无法看到后续未生成内容。

  2. 自回归

    把上一步预测出的字符,并入输入序列,循环推算下一个字符。

运行流程

输入初始文本→单向注意力提取历史语义→预测单个 token→拼接回原文→重复迭代→生成完整语句

核心特点
  • 严格遵循语序逻辑,不会出现语序颠倒、内容剧透

  • GPT 模型的基础生成模式

  • 适配对话、续写、文案创作等场景

对比区分
  • 单向:视野限制规则

  • 自回归:迭代生成方式

  • 单向自回归:二者结合的完整生成机制

单向注意力和多头注意力区别

两个机制完全不冲突完全不冲突,两个是不同维度概念,可以叠加共存

多头注意力并行拆分计算

把单组注意力拆成多个头,各自捕捉词语远近、语法、语义等不同关联,最后拼接融合,提升表达能力。

单向注意力可视范围限制

用掩码挡住后续位置,规定每个 token 只能看向前文,禁止查看后文,约束时序规则。

组合逻辑(GPT 实际用法)

掩码多头单向注意力

  1. 先拆分多头,分头计算注意力权重

  2. 施加因果掩码,屏蔽未来位置

  3. 融合多头结果,完成特征计算

通俗类比
  • 多头:多双眼睛同时观察文本

  • 单向:每只眼睛只许看左边过往内容,不许看右边未出现内容

GPT的单向自回归和多头注意力

相关推荐
@insist12311 分钟前
系统架构设计师-操作系统进程管理核心知识点详解
架构·系统架构·软考·系统架构设计师·软件水平考试
吃好睡好便好24 分钟前
说说科学爬山
学习·生活
●VON1 小时前
AtomGit Flutter鸿蒙客户端:用户资料
flutter·华为·架构·跨平台·harmonyos·鸿蒙
SL-staff1 小时前
Web 白板技术架构深度解析:从渲染到协作的选型哲学
前端·架构
lunzi_08261 小时前
【学习笔记】《Python编程 从入门到实践》第8章:函数定义、参数传递与模块导入
笔记·python·学习
前端冒菜师1 小时前
别急着做 Agent,AI 工程化的第一步是 Skill 化
架构·ai编程
啦啦啦_99991 小时前
4. Transformer_4_输出部分
人工智能·深度学习·transformer
Patrick_Wilson2 小时前
为省一次回归测试,该不该把多个改动堆进一条分支?
git·ci/cd·架构