逆转训练针对大语言模型逆转训练的重要性

不知名的老吴2026-04-25 21:43

有些小伙伴应该清楚，这种方法来源于论文《Reverse Training to Nurse the Reversal Curse》。逆转训练的思路是将一段训练文本随机划分成若干 chunk，每个 chunk 内的文本顺序保持不变，但 chunk 之间的顺序被随机打乱。然后将这个打乱的文本与原始问题混合在一起，利用 next token prediction进行训练。

按照 chunk 的定义，作者进一步划分了几种方法：

当 chunk 是一个 token 时
当 chunk 是一个单词时
当 chunk 是一个实体时
当 chunk 是随机的一段文本序列时

目前实验结果表明，第四种方法效果最佳。

虽然这个思路非常简单，但实验结果表明，这种方法确实能在一定程度上缓解逆转诅咒。

为何有效？作者提供了两点见解（insight）：

大语言模型通过学习不同领域的知识和语言（如代码、小说、文档等），可以起到 1+1>2 的效果。作者设计的这种随机打乱 chunk 顺序的方法，类似于一种特殊任务的"语言"。
大语言模型本质上是在学习 P(x1,x2,...,xn)。通过顺序的 next token prediction 方式并不是唯一的方法。通过其他顺序也能更好地学习 P(x1,x2,...,xn)。