1. 背景

本qiang~这段时间调研了LLM上下文扩展的问题，并且实打实的运行了几个开源的项目，所谓实践与理论相结合嘛！

此文是本qiang~针对上下文扩展问题的总结，包括解决方案的整理概括，文中参考了多篇有意义的文章，他山之石可以攻玉。

大语言模型的扩展有诸多意义，如进行更长的会话、总结更长的文档等。

2. 上下文扩展方案

2.1 位置插值

位置插值(Position Interpolation)是Meta研究人员在去年发布的论文《EXTENDING CONTEXT WINDOW OF LARGE LANGUAGE MODELS VIA POSITION INTERPOLATION》提出的方案，基线模型为LLAMA，LLAMA采用的位置编码是苏神提出的ROPE(如果苏神的文章理论不清楚，推荐拜读下FireFly作者的《图解RoPE旋转位置编码及其特性》，连接在文末)，但ROPE的外推性效果不佳，位置插值则做了进一步的改进优化。

位置插值的原理图如下：

原理其实很简单，通过线性降低输入位置索引以匹配原始上下文窗口大小，然后通过少量微调工作，然后将LLaMA 7B和65B模型初始的2048扩展到32768，效率和效果均有保障。

位置插值的代码可以参考transformers中LlamaLinearScalingRotaryEmbedding方法，该防范继承了ROPE的基础类LlamaRotaryEmbedding，改动之处仅在于图中标红之处。

2.2 LongLoRA

LongLoRA是港中文大学和MIT联合发出的论文《LONGLORA:EFFICIENT FINE-TUNING OF LONGCONTEXT LARGE LANGUAGE MODELS》提出的方法，本论文的主要改进之处在于：

基于位置插值方法，在上下文扩展任务中引入LoRA方法，降低对硬件资源的专需。
提出了shift short attention，将attention的直接计算改进为分组计算，且保障相邻组间信息共享。
将norm层及embed层也加入到微调训练中，该部分的参数占比相对较少。

LoRA大家应该很熟悉，下面将重点介绍shift short attention。原理图如下：

(1) 首先将head维度的特征拆分为2块

(2) 然后将其中一组的特征被移动，移动大小为group size的一半

(3) 将tokens拆分成组，且reshape为batch维，然后attention计算

(4) 最后将计算后的结果进行还原。

shift short attention的伪代码如下，具体代码可以参考LongLoRA的github仓库：

2.3 LongQLoRA

LongQLoRA的论文是《LONGQLORA: EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS》，主要的思想就是在LongLoRA的基础上引入了量化操作，进一步降低了显卡需求。(Ps: 其实LongLoRA项目本身也集成了量化微调)

LongQLoRA仅在一张32G的V100上，可以将LLaMA2的7B和13B从4096扩展到8192甚至12K，仅需要1000步微调即可。

LongQLoRA本身也是基于transformers架构，因此引入量化配置仅需要些许改动即可，具体如下：