sparse transformer 常见稀疏注意力

参考:

https://zhuanlan.zhihu.com/p/259591644

主要就是降低transformer自注意力模块的复杂度

复杂度主要就是 Q · K^T影响的,稀疏注意力就是在Q点乘K的转置这模块做文章

下列式一些sparse transformer稀疏注意力方法

a、transformer原始的 , Q · K^T,其中 K^T 表示 K 的转置

b、每个token与前后三个做自注意力计算

c、膨胀注意力(dilated attention):每个token与前后三个做自注意力计算,但这三个有间隔,就是比如第一个token看右面3,5,7

d、全局token是第一二个token看所有的token,3及后面的token只看· K^T 矩阵的1、2token;sliding划窗见b

a、全局token是第一二个token看所有的token,3及后面的token只看· K^T 矩阵的1、2token

b、划窗

c、见上面c

d、random

e、Q矩阵的123token 看 · K^T123token;Q矩阵的456token 看 · K^T456token 。。。。

相关推荐
TMT星球1 分钟前
TCL华星t8项目正式开工,总投资额约295亿元
大数据·人工智能
猫头虎3 分钟前
DeepSeek刚刚开源了一个3B的 OCR模型:什么是DeepSeek-OCR?单张A100-40G每天可以处理20万+页文档
人工智能·开源·whisper·prompt·aigc·ocr·gpu算力
lky不吃香菜5 分钟前
上下文工程的艺术与科学:来自 LangChain 和 Manus 的前沿洞察
人工智能
香菜烤面包6 分钟前
Attention:MHA->MQA->GQA->MLA
人工智能·深度学习
阿里云大数据AI技术7 分钟前
云栖实录 | 驶入智驾深水区:广汽的“数据突围“之路
大数据·人工智能
肥晨8 分钟前
OCR 模型受全球关注,实测到底谁更出色?
人工智能·ai编程
景天科技苑14 分钟前
【AI智能体开发】什么是LLM?如何在本地搭建属于自己的Ai智能体?
人工智能·llm·agent·智能体·ai智能体·ollama·智能体搭建
skywalk816314 分钟前
用Trae自动生成一个围棋小程序
人工智能·小程序
nju_spy18 分钟前
牛客网 AI题(一)机器学习 + 深度学习
人工智能·深度学习·机器学习·lstm·笔试·损失函数·自注意力机制
千桐科技21 分钟前
qKnow 知识平台【开源版】安装与部署全指南
人工智能·后端