【论文学习】Transformer中的数据流动

模型核心定位与目标

  • 模型类型:GPT 类生成式 Transformer 模型
  • 核心任务预测下一个词 / 文本片段,生成新文本
  • 学习方式:从大量文本数据中自动学习规律,用参数指导模型行为

输入处理全流程

1. 文本切分

  • 输入文本被切分为小片段(token),可以是单词、子词单元
  • 每个 token 是模型处理的最小单位

2. 嵌入向量(Embedding)

  • 每个 token 对应一个向量(一组数字),用于编码该 token 的语义
  • 语义相近的词,向量在高维空间中距离更近
  • 嵌入矩阵
    • 形状:每行对应词汇表中一个词
    • 初始状态:完全随机初始化
    • 作用:存储每个 token 的基础语义向量
  • 局限:原始嵌入仅编码单个词含义无上下文信息

3. 向量更新机制

  • 嵌入向量会随上下文信息动态改变
  • 靠后续注意力模块完成上下文信息融合

模型核心计算与模块

1. 数据格式

  • 输入最终转为实数向量 / 高维矩阵
  • 模型内部参数称为权重(权值)
  • 计算方式:矩阵乘法、加权和

2. 注意力机制(核心)

(1)作用
  • 让 token 之间互相传递信息、更新自身值
  • 自动判断:上下文哪些词重要、哪些无关
  • 支持并行处理,而非按序列依次交流
(2)核心组件
  • 查询(Query) :编码 "我要找什么信息" 的向量
    • 计算:输入向量 × 矩阵 WQ 得到
  • 键(Key) :编码 "我包含什么信息" 的向量
    • 计算:输入向量 × 矩阵 WK 得到
  • 值(Value) :最终用于更新的信息向量
    • 维度示例:12288×12288 大矩阵,可做低秩分解优化
(3)计算流程
  1. 计算 Query 与 Key 的点积,衡量匹配度
  2. 匹配度越高,权重越大;方向一致为正,相反为负
  3. 权重归一化,形成注意力分数(0~1,列和为 1)
  4. 用分数加权 Value,得到注意力输出

3. 掩码注意力(Masked Attention)

  • 训练关键技巧:遮住后面的词
  • 规则:用前面的词预测后面的词,禁止后面的词干扰前面
  • 实现:注意力矩阵左下三角置 0,避免信息泄露

4. 数值稳定性优化

  • 点积后除以维度平方根,防止数值过大
  • 再输入 Softmax 做归一化

5. 网络结构

  • 注意力层 + 前馈层(FFN)交替堆叠
  • 多层叠加后,向量被完全编码上下文语义
  • 模型有固定上下文长度限制,一次只能处理固定数量向量,过长会丢失早期信息

输出与预测过程

1. 最终输出

  • 取最后一层的最后一个向量,用于预测下一个 token
  • 输出:所有可能 token 的概率分布

2. 数学计算

  1. 最终向量 × 权重矩阵
  2. Softmax 函数,把数值转为概率
  3. 得到:每个 token 接下来出现的概率

3. 生成控制(Temperature)

  • 数值大:概率更均匀,生成更随机
  • 数值小:高概率词占优势,生成更确定、更 "死板"
相关推荐
我想我不够好。2 分钟前
2026.5.8 消防监控学习1hour
学习
Amazing_Cacao4 分钟前
CFCA精品可可产区认证课程风土体系(非洲):穿透浓厚表象,深度解剖精品可可底层的结构张力与多维对抗
笔记·学习·重构
墨&白.5 分钟前
PINNs在传染病预测中的应用
深度学习·神经网络·机器学习
库奇噜啦呼8 分钟前
【iOS】源码学习-类的结构分析
学习·ios·cocoa
AIDF20268 分钟前
【无声音的画像——当深度学习遇上 MFCC标题】
人工智能·深度学习·语音识别
小新同学^O^10 分钟前
简单学习--> 神经网络
人工智能·python·神经网络·学习
沉浸式学习ing18 分钟前
音视频内容怎么快速消化?视频转思维导图+精华速览的方法
人工智能·学习·ai·音视频·知识图谱·xmind
楼田莉子2 小时前
仿Muduo的高并发服务器:Http协议模块
linux·服务器·c++·后端·学习
AI机器学习算法9 小时前
《动手学深度学习PyTorch版》笔记
人工智能·学习·机器学习
贺一航【Niki】9 小时前
【学习笔记】杂乱知识
笔记·学习