iclr 2024 reviewer 评分668
1 intro
- 论文揭示了自回归大模型(LLM)中令人惊讶的泛化失败【反转诅咒】
- 如果模型在"A is B"形式的句子上进行训练,它不会自动泛化到相反的方向"B is A"
- 通过对"Uriah Hawthorne 是深渊旋律的作曲家"等虚构陈述进行微调 GPT-3 和 Llama-1 来提供反转诅咒的证据,并表明它们未能正确回答"谁创作了深渊旋律?"【微调的反转诅咒】
- 反转诅咒在模型大小和模型系列中都很常见,并且不会通过数据增强得到缓解
- 还针对有关现实世界名人的问题评估 ChatGPT(GPT3.5 和 GPT-4),例如"汤姆·克鲁斯的母亲是谁? [A:玛丽·李·菲佛]"和相反的"谁是玛丽·李·菲佛的儿子?"。【推理的反转诅咒】
- GPT-4 正确回答前一类问题的正确率是 79%,而后者的正确率是 33%
2 反转诅咒的微调测试
- 根据虚构事实微调模型,其中名称(例如"Daphne Barrington")位于描述(例如"...的导演")之前,然后按照两个顺序向模型提出问题。
- 当顺序与微调相匹配时,模型通常能够回答问题
- 另一个顺序提问就不行
- 这个方向上提问,模型获得正确名称的可能性并不高于随机名称的可能性
- ------>这展示了逆转诅咒
3 实验1:反转虚构name-description的顺序
3.1 实验的设置
3.1.1 需要的prompt
3.2 实验结果
同向效果好;反向效果和random没什么区别
4 实验2:现实世界知识的反转诅咒
4.1 实验设置
- 测试了关于实际名人及其父母的事实模型,这些模型具有"A 的父母是 B"和"B 的孩子是 A"的形式
- 从 IMDB收集了前 1000 位最受欢迎的名人的列表,并查询 GPT-4 查找他们的父母
- GPT-4 能够在 79% 的情况下识别名人的父母
- 对于每个子-父对,我们查询 GPT-4 来识别孩子。
- GPT-4 的成功率仅为 33%
- 从 IMDB收集了前 1000 位最受欢迎的名人的列表,并查询 GPT-4 查找他们的父母
- 这个实验可能低估了 GPT-4 的能力。 GPT-4 可能已经过微调,以避免泄露有关个人的信息
- 这种微调可能会过于概括,有时会避免回答有关名人父母的问题
- ------>为了解决这个问题,论文评估了 Llama-1 系列的基本模型,该模型尚未进行微调。
- ------>发现所有模型在识别父母方面比识别孩子方面要好得多
5 实验3 问题(instruction)改变顺序
5.1 实验setting
5.2 结果
6 未来工作
6.1 解释逆转诅咒
- 是什么解释了自回归 LLMs 中的逆转诅咒?论文主要留给未来的工作
- 论文提供了一种解释:
- 当模型在 "A 是 B" 上进行更新时,这个梯度更新可能会稍微改变 A 的表示,以包含有关 B 的信息
- 梯度更新是短视的,依赖于给定 A 时 B 的概率对数,而不是在未来必须从 B 预测 A
6.2 研究其他类型的关系
- 模型是否无法逆转其他类型的关系
- 蕴涵(例如 "X 蕴涵 Y" 和 "非 X 蕴涵非 Y")
- 空间关系(例如 "杯子在桌子上" 和 "桌子在杯子下面")
- n 元关系(例如 "爱丽丝、鲍勃、卡罗尔和丹在同一组中")
6.3 通过实体链接找到逆转失败原因
6.4 分析逆转诅咒的实际影响
- 现代 LLMs 的预训练集非常庞大且多样化。
- 因此,有用的信息可能会在数据集中多次出现,并以不同的顺序出现,这可能掩盖了逆转诅咒