[论文笔记] Mistral论文解读

https://arxiv.org/pdf/2310.06825.pdf

GQA:

1、加快推理速度

2、减小内存需求

3、允许更大的batch

4、更高的吞吐量

SWA:

1、较低的计算成本 更有效的处理 较长的序列。

2、感受野更符合常理。不再是全局感受野,而是只和前4096个进行语义融合。这样在某位置时,距离它远的token得到的注意更低。缺点是对于海底捞针的任务更不友好。

这样每层都在叠加感受野。在第K层时,感受野就是W*K。

参数设置:

相关推荐
张较瘦_20 小时前
[论文阅读] AI + 教育 | AI赋能“三个课堂”的破局之道——具身认知与技术路径深度解读
论文阅读·人工智能
CV-杨帆1 天前
论文阅读:arxiv 2025 OptimalThinkingBench: Evaluating Over and Underthinking in LLMs
论文阅读
七元权1 天前
论文阅读-EfficientAD
论文阅读·深度学习·实时·异常检测
Matrix_111 天前
论文阅读:Multi-Spectral Image Color Reproduction
论文阅读·人工智能·计算摄影
噜~噜~噜~2 天前
论文笔记:“Mind the Gap Preserving and Compensating for the Modality Gap in“
论文阅读
张较瘦_2 天前
[论文阅读] AI+ | 从 “刚性科层” 到 “智能协同”:一文读懂 AI 应对国家安全风险的核心逻辑
论文阅读·人工智能
张较瘦_2 天前
[论文阅读] AI+ | GenAI重塑智慧图书馆:华东师大实践AI虚拟馆员,解放馆员聚焦高价值任务
论文阅读·人工智能
CoookeCola3 天前
MovieNet (paper) :推动电影理解研究的综合数据集与基准
数据库·论文阅读·人工智能·计算机视觉·视觉检测·database
张较瘦_4 天前
[论文阅读] AI+ | AI如何重塑审计行业?从“手工筛查”到“智能决策”:AI审计的核心逻辑与未来路径
论文阅读·人工智能
苦瓜汤补钙5 天前
论文阅读——Segment Anything(Meta AI)——SAM
论文阅读·图像处理·人工智能·nlp·ai编程