【论文学习】Transformer中的数据流动

菜鸟‍2026-04-18 19:35

模型核心定位与目标

模型类型：GPT 类生成式 Transformer 模型
核心任务 ：预测下一个词 / 文本片段，生成新文本
学习方式：从大量文本数据中自动学习规律，用参数指导模型行为

输入处理全流程

1. 文本切分

输入文本被切分为小片段（token），可以是单词、子词单元
每个 token 是模型处理的最小单位

2. 嵌入向量（Embedding）

每个 token 对应一个向量（一组数字），用于编码该 token 的语义
语义相近的词，向量在高维空间中距离更近
嵌入矩阵 ：
- 形状：每行对应词汇表中一个词
- 初始状态：完全随机初始化
- 作用：存储每个 token 的基础语义向量
局限：原始嵌入仅编码单个词含义 ，无上下文信息

3. 向量更新机制

嵌入向量会随上下文信息动态改变
靠后续注意力模块完成上下文信息融合

模型核心计算与模块

1. 数据格式

输入最终转为实数向量 / 高维矩阵
模型内部参数称为权重（权值）
计算方式：矩阵乘法、加权和

2. 注意力机制（核心）

（1）作用

让 token 之间互相传递信息、更新自身值
自动判断：上下文哪些词重要、哪些无关
支持并行处理，而非按序列依次交流

（2）核心组件

查询（Query） ：编码 "我要找什么信息" 的向量
- 计算：输入向量 × 矩阵 WQ 得到
键（Key） ：编码 "我包含什么信息" 的向量
- 计算：输入向量 × 矩阵 WK 得到
值（Value） ：最终用于更新的信息向量
- 维度示例：12288×12288 大矩阵，可做低秩分解优化

（3）计算流程

计算 Query 与 Key 的点积，衡量匹配度
匹配度越高，权重越大；方向一致为正，相反为负
权重归一化，形成注意力分数（0~1，列和为 1）
用分数加权 Value，得到注意力输出

3. 掩码注意力（Masked Attention）

训练关键技巧：遮住后面的词
规则：用前面的词预测后面的词，禁止后面的词干扰前面
实现：注意力矩阵左下三角置 0，避免信息泄露

4. 数值稳定性优化

点积后除以维度平方根，防止数值过大
再输入 Softmax 做归一化

5. 网络结构

注意力层 + 前馈层（FFN）交替堆叠
多层叠加后，向量被完全编码上下文语义
模型有固定上下文长度限制，一次只能处理固定数量向量，过长会丢失早期信息

输出与预测过程

1. 最终输出

取最后一层的最后一个向量，用于预测下一个 token
输出：所有可能 token 的概率分布

2. 数学计算

最终向量 × 权重矩阵
过 Softmax 函数，把数值转为概率
得到：每个 token 接下来出现的概率

3. 生成控制（Temperature）

数值大：概率更均匀，生成更随机
数值小：高概率词占优势，生成更确定、更 "死板"

上一篇：C语言函数完全指南：从基础到实践

下一篇：告别 CGO 噩梦！这款“纯 Go”神器让你不用 GCC 也能调 C 库，部署快到飞起！

热门推荐

01GitHub 镜像站点 02【AI】2026 年具身智能模型和世界模型总结 03DeepSeek V4 + Claude Code thinking mode 400 错误修复方案 04【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 05Codex 接入 DeepSeek API 完整配置文档 06裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 07几个好用的ip纯净度检测网站 08CC-Switch & Claude 基于 Linux 服务器安装使用指南 09CC-Switch 全平台下载、安装与使用全指南（Windows/macOS/Linux）10API Key 登录 Codex 也能用插件了，还支持会话删除和导出