[论文笔记] Mistral论文解读

心心喵2024-03-02 21:15

https://arxiv.org/pdf/2310.06825.pdf

GQA:

1、加快推理速度

2、减小内存需求

3、允许更大的batch

4、更高的吞吐量

SWA：

1、较低的计算成本更有效的处理较长的序列。

2、感受野更符合常理。不再是全局感受野，而是只和前4096个进行语义融合。这样在某位置时，距离它远的token得到的注意更低。缺点是对于海底捞针的任务更不友好。

这样每层都在叠加感受野。在第K层时，感受野就是W*K。

参数设置：

上一篇：解读数据架构——数据编织

下一篇：【Spring连载】使用Spring Data访问 MongoDB（十四）----Mongodb特有的查询方法

热门推荐

01GPU 进阶笔记（二）：华为昇腾 910B GPU 02Coze实战第13讲：飞书多维表格读取+豆包生图模型，轻松批量生成短剧封面 03Coze扣子平台完整体验和实践（附国内和国际版对比）04MIUI显示/隐藏5G开关的方法，信号弱时开启手机Wifi通话方法 05手机电脑之间快速传输图片视频文件，不压缩画质、不限制大小的方法！06扣子（coze）实战|我用扣子搭建了一个自动分析小红薯笔记内容的AI应用|详细步骤拆解 072024年最新 iPhone手机历代机型、屏幕尺寸、纵横比、分辨率整理 08华为昇腾 910B 部署 DeepSeek-R1 蒸馏系列模型详细指南 09DeepSeek各版本说明与优缺点分析 10扣子空间的使用教程与大模型技术思考