[论文笔记] Mistral论文解读

https://arxiv.org/pdf/2310.06825.pdf

GQA:

1、加快推理速度

2、减小内存需求

3、允许更大的batch

4、更高的吞吐量

SWA:

1、较低的计算成本 更有效的处理 较长的序列。

2、感受野更符合常理。不再是全局感受野,而是只和前4096个进行语义融合。这样在某位置时,距离它远的token得到的注意更低。缺点是对于海底捞针的任务更不友好。

这样每层都在叠加感受野。在第K层时,感受野就是W*K。

参数设置:

相关推荐
wzx_Eleven5 小时前
【论文阅读】Towards Privacy-Enhanced and Robust Clustered Federated Learning
论文阅读·人工智能·算法·机器学习·支持向量机·网络安全
CV-杨帆10 小时前
论文阅读:openai 2025 Why Language Models Hallucinate
论文阅读·人工智能·语言模型
byzy17 小时前
【论文笔记】SpaRC: Sparse Radar-Camera Fusion for 3D Object Detection
论文阅读·深度学习·目标检测·计算机视觉·自动驾驶
Caaacy_YU19 小时前
多模态大模型研究每日简报【2025-09-10】
论文阅读·人工智能·深度学习·机器学习·计算机视觉
CV-杨帆1 天前
论文阅读:ACL 2024 Stealthy Attack on Large Language Model based Recommendation
论文阅读·人工智能·语言模型
张较瘦_1 天前
[论文阅读] 算法 | 抗量子+紧凑!SM3-OTS:基于国产哈希算法的一次签名新方案
论文阅读·算法·哈希算法
CV-杨帆2 天前
论文阅读:ACL 2023 MPCHAT: Towards Multimodal Persona-Grounded Conversation
论文阅读
七元权2 天前
论文阅读-SelectiveStereo
论文阅读·深度学习·双目深度估计·selectivestereo
摘星星的屋顶2 天前
论文阅读记录之《VelocityGPT 》
论文阅读·人工智能·深度学习·学习
CV-杨帆2 天前
论文阅读:arxiv 2023 Large Language Models are Not Stable Recommender Systems
论文阅读·人工智能·语言模型