大模型从prompt到第一个token的输出过程

1. 从文字输入到输出第一个token的过程

2. 细节拆解

2.1 多头注意力(并行的关键点之一)

假定通过输入X,计算得到的Q,K,V分别为:

lua 复制代码
Q矩阵
[[1.0, 0.0, 0.0, 9.0, 0.0, 8.0]
 [0.0, 2.0, 2.0, 0.0, 6.0, 0.0]]
K矩阵
[[3.0, 0.0, 3.0, 0.0, 0.0, 5.0]
 [0.0, 4.0, 0.0, 6.0, 2.0, 0.0]]
V矩阵
[[7.0, 0.0, 0.0, 7.0, 0.0, 1.0]
 [0.0, 9.0, 8.0, 0.0, 2.0, 0.0]]

我们假定head 为2

那么矩阵Q K V 会被拆解为

lua 复制代码
拆解后的
Q_1矩阵             Q_2矩阵
[[1.0, 0.0, 0.0]   [[9.0, 0.0, 8.0]
 [0.0, 2.0, 2.0]]   [0.0, 6.0, 0.0]]
K_1矩阵             K_2矩阵
[[3.0, 0.0, 3.0]   [[0.0, 0.0, 5.0]
 [0.0, 4.0, 0.0]]   [6.0, 2.0, 0.0]]
V_1矩阵             V_2矩阵
[[7.0, 0.0, 0.0]   [[7.0, 0.0, 1.0]
 [0.0, 9.0, 8.0]]   [0.0, 2.0, 0.0]]

我们在使用attention公式(这里我们做了简化):

得到

ini 复制代码
Head_1 =
[
  [5.948, 1.353, 1.203],
  [1.677, 6.843, 6.083]
]
Head_2 =
[
  [0.002, 1.999, 0.0003],
  [0.0069, 1.998, 0.0010]
]

然后Concat(Head_1, Head_2)得到如下:

csharp 复制代码
[
  [5.948, 1.353, 1.203, 0.002, 1.999, 0.0003],
  [1.677, 6.843, 6.083, 0.0069, 1.998, 0.0010]
]
相关推荐
kfaino7 小时前
码农的AI翻身(五)你好,我叫 Transformer
后端·aigc
Oneslide13 小时前
机械革命 单系统纯净重装Ubuntu(全盘覆盖,清空原有Windows)
后端
GetcharZp13 小时前
告别OOM!用Go+libvips实现30000×50000超大图片的流式瓦片服务
后端·go
IT_陈寒14 小时前
JavaScript项目实战经验分享
前端·人工智能·后端
用户479492835691514 小时前
6w star,GitHub 趋势第一的 Ponytail,这个agent插件到底在火什么
前端·后端
神奇小汤圆15 小时前
2026一线大厂Java八股文精选(附答案,高质量整理)
后端
Warson_L16 小时前
LangGraph入门学习资料
后端
神奇小汤圆16 小时前
Spring Boot → Solon 注解迁移实战指南:一张对照表说清楚
后端
kfaino17 小时前
码农的AI翻身(四)你好,我叫 Attention
人工智能·后端