浅谈：大语言模型中的逆转诅咒现象

周末也要写八哥2026-04-24 15:34

什么是逆转诅咒现象？

如你所知，大语言模型中的 "逆转诅咒" 现象指的是 ：当模型学习到 "A 是 B" 这样的知识时，它却无法自动推导出 "B 是 A"。这一现象首次于 2023 年 9 月被发现，并在论文《The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"》中得到了详细描述。

需要强调的是，这里的 "A 是 B" 与 "B 是 A" 在逻辑上是等价的。例如，"中国的首都是北京" 与 "北京是中国的首都" 在逻辑上是对等的。

事实上，人类在一定程度上也会表现出类似的 "逆转诅咒" 现象。例如，当你被问到唐诗 "谁知盘中餐" 的下一句时，你可能会很快答出正确答案。然而，如果被问到 "谁知盘中餐" 的上一句，你可能需要花些时间在脑海中搜索和思索。

这正是逆转诅咒的一个典型例子。

接下来，我们将以 GPT-4o 为例，来验证即使是当前最为先进的大语言模型，也存在不同程度的逆转诅咒现象。

需要注意的是，在探讨逆转诅咒现象时，大语言模型是基于其参数中学习到的知识进行直接回答的。虽然模型可能无法直接回答出 "B 是 A"，但如果我们将相关知识作为提示提供给它，它能够从 "A 是 B" 推导出 "B 是 A"。换句话说，逆转诅咒现象关注的是模型在利用其内在知识时的局限性，而非在上下文推理中的不足。

例如在下面的例子中，我们将整首诗作为提示提供给大语言模型，大语言模型能够很好地根据下一句诗推导出上一句诗。