sparse transformer 常见稀疏注意力

参考:

https://zhuanlan.zhihu.com/p/259591644

主要就是降低transformer自注意力模块的复杂度

复杂度主要就是 Q · K^T影响的,稀疏注意力就是在Q点乘K的转置这模块做文章

下列式一些sparse transformer稀疏注意力方法

a、transformer原始的 , Q · K^T,其中 K^T 表示 K 的转置

b、每个token与前后三个做自注意力计算

c、膨胀注意力(dilated attention):每个token与前后三个做自注意力计算,但这三个有间隔,就是比如第一个token看右面3,5,7

d、全局token是第一二个token看所有的token,3及后面的token只看· K^T 矩阵的1、2token;sliding划窗见b

a、全局token是第一二个token看所有的token,3及后面的token只看· K^T 矩阵的1、2token

b、划窗

c、见上面c

d、random

e、Q矩阵的123token 看 · K^T123token;Q矩阵的456token 看 · K^T456token 。。。。

相关推荐
失散139 分钟前
自然语言处理——02 文本预处理(下)
人工智能·自然语言处理
mit6.82433 分钟前
[1Prompt1Story] 滑动窗口机制 | 图像生成管线 | VAE变分自编码器 | UNet去噪神经网络
人工智能·python
sinat_2869451937 分钟前
AI应用安全 - Prompt注入攻击
人工智能·安全·prompt
迈火2 小时前
ComfyUI-3D-Pack:3D创作的AI神器
人工智能·gpt·3d·ai·stable diffusion·aigc·midjourney
Moshow郑锴3 小时前
机器学习的特征工程(特征构造、特征选择、特征转换和特征提取)详解
人工智能·机器学习
CareyWYR3 小时前
每周AI论文速递(250811-250815)
人工智能
AI精钢3 小时前
H20芯片与中国的科技自立:一场隐形的博弈
人工智能·科技·stm32·单片机·物联网
whaosoft-1434 小时前
51c自动驾驶~合集14
人工智能
Jinkxs4 小时前
自动化测试的下一站:AI缺陷检测工具如何实现“bug提前预警”?
人工智能·自动化
小幽余生不加糖4 小时前
电路方案分析(二十二)适用于音频应用的25-50W反激电源方案
人工智能·笔记·学习·音视频