[论文笔记] Mistral论文解读

https://arxiv.org/pdf/2310.06825.pdf

GQA:

1、加快推理速度

2、减小内存需求

3、允许更大的batch

4、更高的吞吐量

SWA:

1、较低的计算成本 更有效的处理 较长的序列。

2、感受野更符合常理。不再是全局感受野,而是只和前4096个进行语义融合。这样在某位置时,距离它远的token得到的注意更低。缺点是对于海底捞针的任务更不友好。

这样每层都在叠加感受野。在第K层时,感受野就是W*K。

参数设置:

相关推荐
墨绿色的摆渡人8 小时前
论文笔记(五十六)VIPose: Real-time Visual-Inertial 6D Object Pose Tracking
论文阅读
m0_7431064612 小时前
论文笔记:no pose,no problem-基于dust3r输出GS参数实现unpose稀疏重建
论文阅读·深度学习·计算机视觉·3d·几何学
weixin_4432906912 小时前
【论文阅读】InstructPix2Pix: Learning to Follow Image Editing Instructions
论文阅读·人工智能·计算机视觉
weixin_4432906918 小时前
【论文阅读】Prompt-to-Prompt Image Editing with Cross Attention Control
论文阅读·prompt
源于花海21 小时前
论文学习(四) | 基于数据驱动的锂离子电池健康状态估计和剩余使用寿命预测
论文阅读·人工智能·学习·论文笔记
新手小白勇闯新世界2 天前
点云论文阅读-1-pointnet++
论文阅读·人工智能·深度学习·神经网络·计算机视觉
小菜日记^_^2 天前
BEAGLE: Forensics of Deep Learning Backdoor Attack for Better Defense(论文阅读)
论文阅读·人工智能·深度学习·sp·ai安全·backdoor 后门攻击·安全四大
衬衫chenshan2 天前
【论文阅读】(Security) Assertions by Large Language Models
论文阅读·人工智能·语言模型
YMWM_2 天前
论文阅读《BEVFormer》
论文阅读
LinKouun2 天前
论文笔记 SuDORMRF:EFFICIENT NETWORKS FOR UNIVERSAL AUDIO SOURCE SEPARATION
论文阅读