论文阅读_大模型优化_YOCO架构

|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 英文名称: You Only Cache Once: Decoder-Decoder Architectures for Language Models 中文名称: 只缓存一次：用于语言模型的解码器-解码器架构链接: http://arxiv.org/abs/2405.05254v2 作者: Yutao Sun, Li Dong, Yi Zhu, Shaohan Huang, Wenhui Wang, Shuming Ma, Quanlu Zhang, Jianyong Wang, Furu Wei 机构: 微软研究院, 清华大学日期: 2024-05-08 |

读后感

这篇论文介绍了一种大模型优化的方法。并非专为某个特定的模型设计，而是可以用来优化当前大多数的大模型。该方法在 GPU 内存的使用和模型生成的速度上都有显著的改善。

在 Transformer 方法中，存储 Attention 的 KV 值占用了大量的资源。目前已有许多针对此问题的优化方法，这篇论文也是其中之一。其主要思想是重复利用 KV 缓存。其核心是对 Decoder-Decoder 架构的改进，并不复杂，可以与其他方法结合使用。

如果这种方法成立，那么许多约 70G 左右的模型就可以在只有 10G 显存的机器上运行。这意味着本地模型的效果将大大提高。每个程序员家里花一万块钱就能部署一个 llama-70B，相当于 GPT-3.5+ 的效果，这将可能带来行业布局的新变化。

摘要

目标：提出名为 YOCO 的 Self Decoder + Cross Decoder 架构。主要用于优化大型语言模型，其特点是只缓存一次键值对。
方法：该架构包括两个主要组件，分别是自解码器和交叉解码器。自解码器负责有效地编码全局键值（KV）缓存，然后通过交叉注意力，这些全局键值（KV）被交叉解码器重复使用，模式与 Transformer 的仅解码器类似。
结论：实验结果显示，与 Transformer 相比，YOCO 在扩大模型大小和训练令牌数量的不同环境下，都能有效降低 GPU 内存需求、预填充延迟和吞吐量。此外，还成功地将 YOCO 的上下文长度扩展到了 1M 个令牌，实现了近乎完美的针头检索精度。