[论文笔记] Mistral论文解读

https://arxiv.org/pdf/2310.06825.pdf

GQA:

1、加快推理速度

2、减小内存需求

3、允许更大的batch

4、更高的吞吐量

SWA:

1、较低的计算成本 更有效的处理 较长的序列。

2、感受野更符合常理。不再是全局感受野,而是只和前4096个进行语义融合。这样在某位置时,距离它远的token得到的注意更低。缺点是对于海底捞针的任务更不友好。

这样每层都在叠加感受野。在第K层时,感受野就是W*K。

参数设置:

相关推荐
墨绿色的摆渡人2 小时前
论文笔记(一百一十二)Pos3R: 6D Pose Estimation for Unseen Objects Made Easy
论文阅读
c0d1ng2 小时前
十二月第三周周报(论文阅读)
论文阅读
Xy-unu14 小时前
[LLM]AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning
论文阅读·人工智能·算法·机器学习·transformer·论文笔记·剪枝
RedMery21 小时前
DETR类论文笔记
论文阅读·论文笔记
m0_650108242 天前
3D Gaussian Splatting:实时辐射场渲染的突破性方案
论文阅读·三维重建·3d高斯溅射·实时视角切换·自适应密度控制·可微光栅化器·灵活高斯基元
0x2112 天前
[论文阅读]AttnTrace: Attention-based Context Traceback for Long-Context LLMs
论文阅读
李加号pluuuus2 天前
【论文阅读】Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generatio
论文阅读
蓝海星梦2 天前
Chain‑of‑Thought 推理链评估全解析:从参考方法到无参考指标
论文阅读·人工智能·自然语言处理·cot
有Li2 天前
D-EDL:用于鲁棒医学分布外检测的差异化证据深度学习|文献速递-医疗影像分割与目标检测最新技术
论文阅读·文献·医学生
HollowKnightZ3 天前
论文阅读笔记:Class-Incremental Learning: A Survey
论文阅读·笔记