【论文学习】Transformer中的数据流动

模型核心定位与目标

  • 模型类型:GPT 类生成式 Transformer 模型
  • 核心任务预测下一个词 / 文本片段,生成新文本
  • 学习方式:从大量文本数据中自动学习规律,用参数指导模型行为

输入处理全流程

1. 文本切分

  • 输入文本被切分为小片段(token),可以是单词、子词单元
  • 每个 token 是模型处理的最小单位

2. 嵌入向量(Embedding)

  • 每个 token 对应一个向量(一组数字),用于编码该 token 的语义
  • 语义相近的词,向量在高维空间中距离更近
  • 嵌入矩阵
    • 形状:每行对应词汇表中一个词
    • 初始状态:完全随机初始化
    • 作用:存储每个 token 的基础语义向量
  • 局限:原始嵌入仅编码单个词含义无上下文信息

3. 向量更新机制

  • 嵌入向量会随上下文信息动态改变
  • 靠后续注意力模块完成上下文信息融合

模型核心计算与模块

1. 数据格式

  • 输入最终转为实数向量 / 高维矩阵
  • 模型内部参数称为权重(权值)
  • 计算方式:矩阵乘法、加权和

2. 注意力机制(核心)

(1)作用
  • 让 token 之间互相传递信息、更新自身值
  • 自动判断:上下文哪些词重要、哪些无关
  • 支持并行处理,而非按序列依次交流
(2)核心组件
  • 查询(Query) :编码 "我要找什么信息" 的向量
    • 计算:输入向量 × 矩阵 WQ 得到
  • 键(Key) :编码 "我包含什么信息" 的向量
    • 计算:输入向量 × 矩阵 WK 得到
  • 值(Value) :最终用于更新的信息向量
    • 维度示例:12288×12288 大矩阵,可做低秩分解优化
(3)计算流程
  1. 计算 Query 与 Key 的点积,衡量匹配度
  2. 匹配度越高,权重越大;方向一致为正,相反为负
  3. 权重归一化,形成注意力分数(0~1,列和为 1)
  4. 用分数加权 Value,得到注意力输出

3. 掩码注意力(Masked Attention)

  • 训练关键技巧:遮住后面的词
  • 规则:用前面的词预测后面的词,禁止后面的词干扰前面
  • 实现:注意力矩阵左下三角置 0,避免信息泄露

4. 数值稳定性优化

  • 点积后除以维度平方根,防止数值过大
  • 再输入 Softmax 做归一化

5. 网络结构

  • 注意力层 + 前馈层(FFN)交替堆叠
  • 多层叠加后,向量被完全编码上下文语义
  • 模型有固定上下文长度限制,一次只能处理固定数量向量,过长会丢失早期信息

输出与预测过程

1. 最终输出

  • 取最后一层的最后一个向量,用于预测下一个 token
  • 输出:所有可能 token 的概率分布

2. 数学计算

  1. 最终向量 × 权重矩阵
  2. Softmax 函数,把数值转为概率
  3. 得到:每个 token 接下来出现的概率

3. 生成控制(Temperature)

  • 数值大:概率更均匀,生成更随机
  • 数值小:高概率词占优势,生成更确定、更 "死板"
相关推荐
通信小呆呆5 天前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能·学习·算法·机器学习·机器人
xiao5kou4chang6kai45 天前
MATLAB机器学习、深度学习--从数据预处理到模型训练
深度学习·机器学习·matlab·数据预处理
H__Rick5 天前
自动对焦学习-3
人工智能·学习·计算机视觉
Daisy Lee5 天前
量化学习-第1章-什么是量化金融
学习·金融·datawhale
renhongxia15 天前
世界模型作为AGI落地底层底座的作用
人工智能·深度学习·生成对抗网络·自然语言处理·知识图谱·agi
计算机科研狗@OUC5 天前
(cvpr26) AIMDepth: Asymmetric Image-Event Mamba for Monocular Depth Estimation
人工智能·深度学习·计算机视觉
Alsn865 天前
等待学习-学习目录:Docker 容器安全攻防
学习·安全·docker
YM52e5 天前
买菜计算器小应用 - HarmonyOS ArkUI 开发实战-PC版本
学习·华为·harmonyos·鸿蒙·鸿蒙系统
小雨下雨的雨5 天前
HarmonyOS ArkUI训练营入门-组件掌握系列-Animation 动画效果实现-PC版本
学习·华为·harmonyos·鸿蒙
cqbzcsq5 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息