[论文笔记] Mistral论文解读

https://arxiv.org/pdf/2310.06825.pdf

GQA:

1、加快推理速度

2、减小内存需求

3、允许更大的batch

4、更高的吞吐量

SWA:

1、较低的计算成本 更有效的处理 较长的序列。

2、感受野更符合常理。不再是全局感受野,而是只和前4096个进行语义融合。这样在某位置时,距离它远的token得到的注意更低。缺点是对于海底捞针的任务更不友好。

这样每层都在叠加感受野。在第K层时,感受野就是W*K。

参数设置:

相关推荐
写代码的小阿帆6 小时前
Fractal Generative Models论文阅读笔记与代码分析
论文阅读·stable diffusion·transformer
王上上6 小时前
【论文阅读29】区间预测CIPM(2025)
论文阅读
Matrix_116 小时前
论文阅读:Matting by Generation
论文阅读·人工智能·计算摄影
王上上9 小时前
【论文阅读28】-CNN-BiLSTM-Attention-(2024)
论文阅读·人工智能·cnn
大写-凌祁1 天前
论文阅读:HySCDG生成式数据处理流程
论文阅读·人工智能·笔记·python·机器学习
颜妮儿1 天前
论文笔记——相干体技术在裂缝预测中的应用研究
论文阅读
柠石榴1 天前
【论文阅读笔记】《A survey on deep learning approaches for text-to-SQL》
论文阅读·笔记·深度学习·nlp·text-to-sql
张较瘦_1 天前
[论文阅读] 人工智能 | 搜索增强LLMs的用户偏好与性能分析
论文阅读·人工智能
Jamence1 天前
多模态大语言模型arxiv论文略读(111)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
Jamence1 天前
多模态大语言模型arxiv论文略读(110)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记