5分钟搞懂什么是窗口注意力?

在基于 Transformer 架构的 AI 大模型中,注意力机制早已成为了必不可少的核心组件。

但是传统注意力机制在处理长序列数据时存在很多问题。

典型的就是计算复杂度过高,导致在大数据场景中的应用受到很大的限制。

这里说的长序列数据,指的是输出或者输入的文本过长。

举个例子,让AI写一个5000字的作文,相比于写 500 字的作文,那就是输出一个更长序列数据的场景。

为了解决这种长序列数据下传统注意力的问题,"窗口注意力"就出现了。

什么是注意力?

在介绍窗口注意力之前,我们先简单了解一下注意力机制。

当你在阅读一篇文章的时候,你的眼睛会自动聚焦在句子的关键词上,并且还会自动忽略不重要的部分。

这就是人眼或人脑的注意力机制。

而大模型的注意力机制也是模仿了这种行为,让模型在处理数据时"关注"更重要的部分,而不是一视同仁地处理所有信息。

那传统注意力和窗口注意力有什么区别呢?

我们看一个"生成一篇关于周末计划的文章"的场景------

假设我们用AI模型来生成一篇500字的文章,主题是"我的周末计划"。

模型需要根据上下文和提示词生成连贯的句子。

在传统注意力机制下,模型会"全局关注"------

每次生成一个新词时,它都会回顾整篇文章(比如已经生成的499个词),并且计算接下来要生成的词和之前所有词的关系,以模型认为最可能或者最好的词作为接下来的输出。

这个过程可以类比为写日记。

当你写到"周日我要去......"时,你需要停下来,把整篇日记从头到尾读一遍,回忆之前写过的每句话(比如"周六去爬山""周五晚上看电影"),然后决定接下来写什么。

在这个过程中,你的大脑每次都要扫描所有已经写过的词,判断哪些词对接下来要写的内容最重要。

比如,之前写过"爬山",那么可能是在提示你接下来要写"带水壶"。

但你得花时间把所有写过的词都过一遍。

这,问题就来了。

如果日记很长(比如5000字),每次写下一个词都要回顾整篇,这不就费时费力了吗?

就像你需要翻看前已经写过的10页日记,才能决定接下来要写"去海边"。

效率很低。

而在窗口注意力机制下,模型只关注"附近"的内容------

每次生成新词时,只看最近的几个词(比如前后10个词,这个时候窗口大小为21),而不是整篇文章。

还是以写日记为例子。

当你写到"周日我要去......"时,你只需要快速回顾最近几句(比如"周六去爬山,带了水壶和帽子"),然后根据这些信息决定接下来写什么,比如"周日我要去海边,带上防晒霜"。

这个过程中,你只需要关注最近的10个词就可以了,而不用完整的回顾之前写过的所有内容。

这样,优势不就非常明显了吗。

只看附近的内容,思考范围小了很多,速度快了不少。

这就是传统注意力和窗口注意力的区别。

实际上,窗口注意力是注意力机制的一种优化方式,核心思想是"限制关注范围"。

它不再让模型一次性关注整个输入序列,而是只关注每个输入点附近的一个小范围(称为"窗口")。

这样,模型的计算量大大减少,效率显著提升。

接下来,我们看看这个优化方法提升的效果有多惊人!

假设你有一串很长的文本,包含1000个单词。

如果用传统注意力机制,模型需要计算1000×1000=100万个关系。

但如果我们使用窗口注意力,只让每个单词关注它前后各10个单词(即窗口大小为21,包括自身),那么每个单词只需要计算21个关系,总计算量降到1000×21=2.1万个。

效率提升了近50倍,是不是挺可怕的。

窗口注意力是一种高效的注意力机制,通过限制关注范围来降低计算复杂度,同时保留了注意力机制的核心优势------"挑重点"。

它就像给模型戴上了一副"局部放大镜",让它专注于眼前的关键信息,同时保持高效和可扩展性。

实际上,窗口注意力类似于 CV 领域卷积的局部感知能力,而传统注意力更像是全连接。

如果想更好的理解本文,建议阅读以下三篇文:

简单粗暴:终于搞清楚了 AI 大模型的推理过程...

为什么是卷积呢?

用盲人摸象 来理解全连接算法,真的一看就懂了

相关推荐
算法_小学生1 小时前
支持向量机(SVM)完整解析:原理 + 推导 + 核方法 + 实战
算法·机器学习·支持向量机
iamlujingtao2 小时前
js多边形算法:获取多边形中心点,且必定在多边形内部
javascript·算法
算法_小学生2 小时前
逻辑回归(Logistic Regression)详解:从原理到实战一站式掌握
算法·机器学习·逻辑回归
DebugKitty2 小时前
C语言14-指针4-二维数组传参、指针数组传参、viod*指针
c语言·开发语言·算法·指针传参·void指针·数组指针传参
qystca3 小时前
MC0241防火墙
算法
行然梦实5 小时前
粒子群优化算法(Particle Swarm Optimization, PSO) 求解二维 Rastrigin 函数最小值问题
算法·机器学习·数学建模
XH华5 小时前
C语言第六章函数递归
c语言·开发语言·算法
斯安6 小时前
LRU(Least Recently Used)原理及算法实现
算法
go54631584656 小时前
基于LSTM和GRU的上海空气质量预测研究
图像处理·人工智能·深度学习·神经网络·算法·gru·lstm
亮亮爱刷题6 小时前
算法提升之数论(矩阵+快速幂)
线性代数·算法·矩阵