[论文笔记] Mistral论文解读

https://arxiv.org/pdf/2310.06825.pdf

GQA:

1、加快推理速度

2、减小内存需求

3、允许更大的batch

4、更高的吞吐量

SWA:

1、较低的计算成本 更有效的处理 较长的序列。

2、感受野更符合常理。不再是全局感受野,而是只和前4096个进行语义融合。这样在某位置时,距离它远的token得到的注意更低。缺点是对于海底捞针的任务更不友好。

这样每层都在叠加感受野。在第K层时,感受野就是W*K。

参数设置:

相关推荐
CV-杨帆7 小时前
论文阅读:arxiv 2026 Security Considerations for Artificial Intelligence Agents
论文阅读
Marlowee19 小时前
UI-Ins 论文深度解读:Instruction-as-Reasoning 范式与 GUI Grounding 的多视角推理
论文阅读
赵庆明老师1 天前
CSSCI论文写作14:如何用学术语言呈现论证
论文阅读·论文写作
StfinnWu1 天前
论文阅读 Guided Real Image Dehazing Using YCbCr Color Space
论文阅读·计算机视觉
民乐团扒谱机1 天前
【读论文】基于非线性光学的全光子人工神经网络处理器
论文阅读·笔记·论文
有Li1 天前
SparseXMIL: 利用稀疏卷积实现数字病理学全玻片图像上下文感知和内存高效分类/文献速递-多模态医学影像最新进展
论文阅读·文献·医学生
西柚小萌新2 天前
【论文阅读】--MIRIX:面向多智能体的记忆系统
论文阅读
ccLianLian2 天前
论文阅读·多模态工作
论文阅读
网安INF2 天前
【论文阅读】-《Formalizing and Benchmarking Prompt Injection Attacks and Defenses》
论文阅读·大模型·prompt·ai安全
CV-杨帆2 天前
论文阅读:arxiv 2026 A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)
论文阅读