【论文学习】Transformer中的数据流动

模型核心定位与目标

  • 模型类型:GPT 类生成式 Transformer 模型
  • 核心任务预测下一个词 / 文本片段,生成新文本
  • 学习方式:从大量文本数据中自动学习规律,用参数指导模型行为

输入处理全流程

1. 文本切分

  • 输入文本被切分为小片段(token),可以是单词、子词单元
  • 每个 token 是模型处理的最小单位

2. 嵌入向量(Embedding)

  • 每个 token 对应一个向量(一组数字),用于编码该 token 的语义
  • 语义相近的词,向量在高维空间中距离更近
  • 嵌入矩阵
    • 形状:每行对应词汇表中一个词
    • 初始状态:完全随机初始化
    • 作用:存储每个 token 的基础语义向量
  • 局限:原始嵌入仅编码单个词含义无上下文信息

3. 向量更新机制

  • 嵌入向量会随上下文信息动态改变
  • 靠后续注意力模块完成上下文信息融合

模型核心计算与模块

1. 数据格式

  • 输入最终转为实数向量 / 高维矩阵
  • 模型内部参数称为权重(权值)
  • 计算方式:矩阵乘法、加权和

2. 注意力机制(核心)

(1)作用
  • 让 token 之间互相传递信息、更新自身值
  • 自动判断:上下文哪些词重要、哪些无关
  • 支持并行处理,而非按序列依次交流
(2)核心组件
  • 查询(Query) :编码 "我要找什么信息" 的向量
    • 计算:输入向量 × 矩阵 WQ 得到
  • 键(Key) :编码 "我包含什么信息" 的向量
    • 计算:输入向量 × 矩阵 WK 得到
  • 值(Value) :最终用于更新的信息向量
    • 维度示例:12288×12288 大矩阵,可做低秩分解优化
(3)计算流程
  1. 计算 Query 与 Key 的点积,衡量匹配度
  2. 匹配度越高,权重越大;方向一致为正,相反为负
  3. 权重归一化,形成注意力分数(0~1,列和为 1)
  4. 用分数加权 Value,得到注意力输出

3. 掩码注意力(Masked Attention)

  • 训练关键技巧:遮住后面的词
  • 规则:用前面的词预测后面的词,禁止后面的词干扰前面
  • 实现:注意力矩阵左下三角置 0,避免信息泄露

4. 数值稳定性优化

  • 点积后除以维度平方根,防止数值过大
  • 再输入 Softmax 做归一化

5. 网络结构

  • 注意力层 + 前馈层(FFN)交替堆叠
  • 多层叠加后,向量被完全编码上下文语义
  • 模型有固定上下文长度限制,一次只能处理固定数量向量,过长会丢失早期信息

输出与预测过程

1. 最终输出

  • 取最后一层的最后一个向量,用于预测下一个 token
  • 输出:所有可能 token 的概率分布

2. 数学计算

  1. 最终向量 × 权重矩阵
  2. Softmax 函数,把数值转为概率
  3. 得到:每个 token 接下来出现的概率

3. 生成控制(Temperature)

  • 数值大:概率更均匀,生成更随机
  • 数值小:高概率词占优势,生成更确定、更 "死板"
相关推荐
网络与设备以及操作系统学习使用者7 分钟前
零信任架构落地实践详解
运维·网络·学习·架构
吃好睡好便好13 分钟前
说说眼睛的日常保健
学习·生活
多年小白16 分钟前
【周末消息】2026年5月30日-6月1日
大数据·人工智能·深度学习·机器学习·金融
_李小白19 分钟前
【android opencv学习笔记】Day 29: 滤波算法之Sobel 边缘检测
android·opencv·学习
Engineer邓祥浩29 分钟前
宏观认知(3):AI战略与社会影响——吴恩达《AI for Everyone》Week3学习笔记
人工智能·笔记·学习
weixin_4684668537 分钟前
图像连通域分析新手实战指南
图像处理·人工智能·深度学习·ai·机器视觉·连通域
千纸鹤の脉搏1 小时前
多线程的初步了解---进程与线程
java·开发语言·学习·线程
硅谷秋水2 小时前
世界动作模型:具身智能的下一前沿
大数据·人工智能·深度学习·计算机视觉·语言模型·机器人
啄缘之间2 小时前
8.【学习】工业级详细接口约束&覆盖率
开发语言·笔记·学习·uvm·sv
星夜夏空992 小时前
FreeRTOS学习(6)——任务创建
单片机·嵌入式硬件·学习