GPT-OSS大模型Attention架构设计

模型参数(20B和120B版本)

考虑Attention Sink的Attention计算

大模型推理时,在大部分层上能观察到注意力很大程度关注到开头的几个token上,在StreamingLLM中被称为attention sink。究其原因,并不是开头的token一定最重要,而是当大模型无法有效关注到主要token时,由于开头的token能被后面所有token看到,所以表现出很高的attention score。

因此有一类工作聚焦于 规避attention sink的出现 ,避免这样的现象影响有效的attention计算。
GPT-OSS提出bias项来修正attention sink,基本的思路是在计算完QK之后,给每个head拼接上额外的一个token(可学习的bias token),然后计算softmax,再把bias token丢弃,最后去和V相乘计算attention的输出。

GPT-OSS源代码如下(写法相对比较晦涩):

于是,我重新整理了一版更简洁的代码:

S这个可学习的bias项应该是head-wise,即给每个head都加上一个额外的token,参数定义如下:

python 复制代码
self.S = torch.nn.Parameter(torch.empty(config.num_attention_heads))

从数学角度分析,上面这个过程 本质上就是给attention的计算中分母的求和加上了额外的一项:

softmax(xi)=exp⁡(xi)∑jexp⁡(xj)→exp⁡(xi)∑jexp⁡(xj)+exp⁡(S)softmax(x_i) =\frac{\exp(x_i)}{\sum_j \exp(x_j)} \rightarrow \frac{\exp(x_i)}{\sum_j \exp(x_j)+\exp(S)}softmax(xi)=∑jexp(xj)exp(xi)→∑jexp(xj)+exp(S)exp(xi)

但注意和V相乘之前,需要去掉bias token,从而得到attention的输出。

补充:也有工作是给分母上加1,达到类似的效果,不过GPT-OSS用可学习的bias项会更加灵活。

分层混合稀疏Attention

GPT-OSS采用隔层交错的attention,混合标准的GQA(full attention)和sliding window attention。

其中,window的大小是128,通过下面的方式决定哪些层用sliding window attention:

python 复制代码
self.sliding_window = config.sliding_window if layer_idx % 2 == 0 else 0
相关推荐
warm3snow3 天前
Claude Code 黑客马拉松:5 个获奖项目,没有一个是"纯码农"做的
ai·大模型·llm·agent·skill·mcp
AI周红伟5 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
All The Way North-5 天前
从 Encoder-Decoder 到 Teacher Forcing:Seq2Seq 机器翻译的完整原理与实现细节全解析
机器翻译·注意力机制·encoder-decoder·seq2seq·自回归模型·teacher forcing·计划采样
大江东去浪淘尽千古风流人物5 天前
【SLAM】GenRobot / IO-AI / Scale / Appen 能力对比表(机器人数据与闭环视角)
人工智能·机器学习·机器人·大模型·概率论·端侧部署·巨身智能
这张生成的图像能检测吗5 天前
(论文速读)XLNet:语言理解的广义自回归预训练
人工智能·计算机视觉·nlp·注意力机制
CoderJia程序员甲5 天前
GitHub 热榜项目 - 日榜(2026-02-25)
人工智能·ai·大模型·github·ai教程
fish_study_csdn5 天前
LangChain学习二:LangChain使用之Model I/O
langchain·大模型·ai agent
来两个炸鸡腿5 天前
【Datawhale组队学习202602】Hello-Agents task06 框架应用开发实战
人工智能·学习·大模型·智能体
诸神缄默不语5 天前
如何用腾讯云轻量应用服务器内置OpenClaw应用搭建OpenClaw并接入QQ、飞书机器人,下载skill,开启对话
大模型·腾讯云·qq机器人·智能助手·飞书机器人·clawdbot·openclaw
CoderJia程序员甲5 天前
GitHub 热榜项目 - 日榜(2026-02-24)
人工智能·ai·大模型·github·ai教程