【论文学习】Transformer中的数据流动

模型核心定位与目标

  • 模型类型:GPT 类生成式 Transformer 模型
  • 核心任务预测下一个词 / 文本片段,生成新文本
  • 学习方式:从大量文本数据中自动学习规律,用参数指导模型行为

输入处理全流程

1. 文本切分

  • 输入文本被切分为小片段(token),可以是单词、子词单元
  • 每个 token 是模型处理的最小单位

2. 嵌入向量(Embedding)

  • 每个 token 对应一个向量(一组数字),用于编码该 token 的语义
  • 语义相近的词,向量在高维空间中距离更近
  • 嵌入矩阵
    • 形状:每行对应词汇表中一个词
    • 初始状态:完全随机初始化
    • 作用:存储每个 token 的基础语义向量
  • 局限:原始嵌入仅编码单个词含义无上下文信息

3. 向量更新机制

  • 嵌入向量会随上下文信息动态改变
  • 靠后续注意力模块完成上下文信息融合

模型核心计算与模块

1. 数据格式

  • 输入最终转为实数向量 / 高维矩阵
  • 模型内部参数称为权重(权值)
  • 计算方式:矩阵乘法、加权和

2. 注意力机制(核心)

(1)作用
  • 让 token 之间互相传递信息、更新自身值
  • 自动判断:上下文哪些词重要、哪些无关
  • 支持并行处理,而非按序列依次交流
(2)核心组件
  • 查询(Query) :编码 "我要找什么信息" 的向量
    • 计算:输入向量 × 矩阵 WQ 得到
  • 键(Key) :编码 "我包含什么信息" 的向量
    • 计算:输入向量 × 矩阵 WK 得到
  • 值(Value) :最终用于更新的信息向量
    • 维度示例:12288×12288 大矩阵,可做低秩分解优化
(3)计算流程
  1. 计算 Query 与 Key 的点积,衡量匹配度
  2. 匹配度越高,权重越大;方向一致为正,相反为负
  3. 权重归一化,形成注意力分数(0~1,列和为 1)
  4. 用分数加权 Value,得到注意力输出

3. 掩码注意力(Masked Attention)

  • 训练关键技巧:遮住后面的词
  • 规则:用前面的词预测后面的词,禁止后面的词干扰前面
  • 实现:注意力矩阵左下三角置 0,避免信息泄露

4. 数值稳定性优化

  • 点积后除以维度平方根,防止数值过大
  • 再输入 Softmax 做归一化

5. 网络结构

  • 注意力层 + 前馈层(FFN)交替堆叠
  • 多层叠加后,向量被完全编码上下文语义
  • 模型有固定上下文长度限制,一次只能处理固定数量向量,过长会丢失早期信息

输出与预测过程

1. 最终输出

  • 取最后一层的最后一个向量,用于预测下一个 token
  • 输出:所有可能 token 的概率分布

2. 数学计算

  1. 最终向量 × 权重矩阵
  2. Softmax 函数,把数值转为概率
  3. 得到:每个 token 接下来出现的概率

3. 生成控制(Temperature)

  • 数值大:概率更均匀,生成更随机
  • 数值小:高概率词占优势,生成更确定、更 "死板"
相关推荐
昵称小白2 小时前
图像在深度学习里是怎么表示的:像素、通道、tensor、batch(二)
深度学习·batch
阿_旭2 小时前
基于YOLO26深度学习的【辣椒成熟度检测与计数系统】【python源码+Pyqt5界面+数据集+训练代码】
人工智能·python·深度学习·辣椒成熟度检测
高洁012 小时前
大模型在天文科研中的应用:天体数据分析
人工智能·深度学习·数据挖掘·transformer·知识图谱
白羊by2 小时前
Softmax 激活函数详解:从数学原理到应用场景
网络·人工智能·深度学习·算法·损失函数
fmk10233 小时前
FastAPI + LangChain Agent 从零入门学习笔记
学习·langchain·fastapi
词元Max3 小时前
Java 转 AI Agent 开发学习路线(2026年3月最新版)
java·人工智能·学习
-cywen-3 小时前
VAE(Variational AutoEncoder)
人工智能·深度学习
星幻元宇VR3 小时前
VR互动平台|开启沉浸式体验新方式
科技·学习·安全·vr·虚拟现实
qqacj4 小时前
Spring Security 官网文档学习
java·学习·spring