sparse transformer 常见稀疏注意力

参考:

https://zhuanlan.zhihu.com/p/259591644

主要就是降低transformer自注意力模块的复杂度

复杂度主要就是 Q · K^T影响的,稀疏注意力就是在Q点乘K的转置这模块做文章

下列式一些sparse transformer稀疏注意力方法

a、transformer原始的 , Q · K^T,其中 K^T 表示 K 的转置

b、每个token与前后三个做自注意力计算

c、膨胀注意力(dilated attention):每个token与前后三个做自注意力计算,但这三个有间隔,就是比如第一个token看右面3,5,7

d、全局token是第一二个token看所有的token,3及后面的token只看· K^T 矩阵的1、2token;sliding划窗见b

a、全局token是第一二个token看所有的token,3及后面的token只看· K^T 矩阵的1、2token

b、划窗

c、见上面c

d、random

e、Q矩阵的123token 看 · K^T123token;Q矩阵的456token 看 · K^T456token 。。。。

相关推荐
凌乱风雨121110 小时前
使用Vite+ Lit 构建webcomponent 组件
人工智能·语言模型
weisian15110 小时前
入门篇--知名企业-3-Google DeepMind:从AlphaGo到AGI,AI如何改写人类未来?
人工智能
郝学胜-神的一滴11 小时前
机器学习数据集完全指南:从公开资源到Sklearn实战
人工智能·python·程序人生·机器学习·scikit-learn·sklearn
一只大侠的侠11 小时前
深度学习入门:从 LSTM 到 GAN 的实战项目推荐
深度学习·生成对抗网络·lstm
偶信科技11 小时前
聚焦“一点”洞察海洋:偶信科技单点海流计引领精准观测新趋势
人工智能·科技·偶信科技·ocean·海洋仪器·单点海流计
汤姆yu11 小时前
基于yolov8的深度学习垃圾分类检测系统
人工智能·深度学习
菠菠萝宝11 小时前
从传统后端到AI智能驱动:Java + AI 生态深度实战技术总结
java·人工智能·ai·llm·知识图谱·ai编程·rag
独孤--蝴蝶11 小时前
AI人工智能-大模型的演进-第十一周(上)(小白)
人工智能·深度学习·自然语言处理
喝拿铁写前端11 小时前
AI 驱动前端开发覆盖的能力全景拆解
前端·javascript·人工智能
Dev7z11 小时前
基于Matlab的Logistic混沌映射语音信号加密与解密系统设计与仿真
人工智能·语音识别