LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs论文阅读

LONGWRITER: UNLEASHING 10,000+ WORD GENERATION FROM LONG CONTEXT LLMS

一句话总结：

加入长输出的数据进行训练微调，即可解锁大模型的长输出能力。

摘要

当前的LLMs能够处理100,000个token的输入，但在难以生成超过2,000个词。实验发现模型的有效生成长度本质上受到其在监督式微调（SFT）期间所见过的样本的限制。
为了解决这个问题，我们引入了AgentWrite，它将超长生成任务分解为子任务，使现成的LLMs能够生成超过20,000个词的连贯输出。
利用AgentWrite，我们构建了一个包含6,000个SFT数据的LongWriter-6k数据集，输出长度范围在2k到32k个词之间。
通过将这个数据集纳入模型训练，我们将现有模型的输出长度扩展到超过10,000个词，同时保持了输出质量。
我们还开发了LongBench-Write，一个全面的基准测试，用于评估超长生成能力。
9B参数模型，通过DPO，在这个基准上实现了最先进的性能，甚至超过了更大的专有模型。
总的来说，现有的长上下文LLM已经拥有更大的输出窗口的潜力------你所需要的只是在模型对齐期间用扩展输出的数据来解锁这个能力。

第1章引言

介绍了长上下文大型语言模型（LLMs）的最新进展以及它们在生成长文本方面的局限性。

第2章发现生成长度限制的原因

通过构建LongWrite-Ruler评估来探测LLMs的生成长度限制，并探索了造成它们生成长度限制的原因。

结论：llm输出一般为2k个左右，训练数据的长度增加，输出长度也会增加。

第3章 AGENTWRITE: 自动数据构建

为了使用现成的LLMs自动生成具有更长输出的SFT数据，我们设计了AgentWrite，这是一个分而治之风格的代理流水线。逐章节的去输出内容，再合并即可。

第4章 LONGWRITER: 教会模型生成超长输出

数据分布

经过自动选择和人工检查，确保指令确实需要几千个词的响应。
数据经过过滤和清理，以确保输出长度和质量。

训练时同时使用SFT180K数据和LongWriter-6k

模型训练

SFT

选择了两个最新的开源模型作为基础模型：GLM-4-9B和Llama-3.1-8B。

这些模型支持高达128k tokens的上下文窗口，适合于长输出任务的训练。
采用了打包训练（packing training）和损失加权（loss weighting）策略来提高训练效率。

损失加权策略

通过按token平均损失而非按batch句子损失，确保长输出数据中每个目标token对损失的贡献是均衡的。因为如果按照句子计算平均损失，在长输出的情况下，会弱化每一个token对target的loss

硬件和配置

使用了8个H800 80G GPU的节点进行训练，结合DeepSpeed和ZeRO以及CPU卸载技术。
设置了批量大小为8，学习率为1e-5，打包长度为32k。一共训了4 epochs, 差不多2,500-3,000 steps.

训练周期

模型训练了4个epoch，大约需要2500到3000步。

DPO

数据来源之一

使用了来自GLM-4的聊天DPO数据，以及特别为长形式写作指令构建的4k数据对。另外

数据来源之二自己构建的4k数据

对long-writer输出4个样本打分，选择了得分最高的作为正样本，随机选择其他输出之一作为负样本。
DPO训练了250步，遵循了Hou等人（Chatglm-rlhf）的DPO训练方法。

结果

训练后的模型LongWriter-9B和LongWriter-9B-DPO在LongBench-Write基准测试上表现出色，特别是在生成超过2,000个词的长文本方面。
DPO显著提高了模型遵循长度指令的能力，并且提升了输出的整体质量。

主要结果

对比了4个私有模型和5个开源模型在LongBench-Write上的性能，以及训练的LongWriter模型。
观察到大多数现有模型无法满足超过2,000个词的长度要求，而LongWriter模型能够提供更长、更丰富的响应。

结果分析

LongWriter模型在所有长度范围内的输出长度得分(Sl)和质量得分(Sq)上均表现出色。
DPO进一步提高了模型的输出质量和遵循长度约束的能力。

消融研究

进行了三项数据消融实验，以评估不同数据集对模型性能的影响。

消融LongWriter-6k数据集

证明了LongWriter-6k数据集对提高模型处理长文本能力的重要性。

计划增强输出数据

探讨了在生成内容前先输出写作计划对模型性能的影响。类似于CoT，但是对质量并没有什么提升。

与指令回传合成数据的比较

分析了使用指令回传方法构建的长输出SFT数据对模型性能的影响。发现对结果是有害的。作者分析两点原因：

指令回传数据质量比较低
回传的指令与用户指令有gap，不一致