论文笔记：The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”

UQI-LIUWJ2024-04-14 23:14

iclr 2024 reviewer 评分668

1 intro

论文揭示了自回归大模型（LLM）中令人惊讶的泛化失败【反转诅咒】
- 如果模型在"A is B"形式的句子上进行训练，它不会自动泛化到相反的方向"B is A"
通过对"Uriah Hawthorne 是深渊旋律的作曲家"等虚构陈述进行微调 GPT-3 和 Llama-1 来提供反转诅咒的证据，并表明它们未能正确回答"谁创作了深渊旋律？"【微调的反转诅咒】
- 反转诅咒在模型大小和模型系列中都很常见，并且不会通过数据增强得到缓解
还针对有关现实世界名人的问题评估 ChatGPT（GPT3.5 和 GPT-4），例如"汤姆·克鲁斯的母亲是谁？ [A：玛丽·李·菲佛]"和相反的"谁是玛丽·李·菲佛的儿子？"。【推理的反转诅咒】
- GPT-4 正确回答前一类问题的正确率是 79%，而后者的正确率是 33%

2 反转诅咒的微调测试

根据虚构事实微调模型，其中名称（例如"Daphne Barrington"）位于描述（例如"...的导演"）之前，然后按照两个顺序向模型提出问题。
当顺序与微调相匹配时，模型通常能够回答问题
另一个顺序提问就不行
- 这个方向上提问，模型获得正确名称的可能性并不高于随机名称的可能性
- ------>这展示了逆转诅咒

3 实验1：反转虚构name-description的顺序

3.1 实验的设置

3.1.1 需要的prompt

3.2 实验结果

同向效果好；反向效果和random没什么区别

4 实验2：现实世界知识的反转诅咒

4.1 实验设置

测试了关于实际名人及其父母的事实模型，这些模型具有"A 的父母是 B"和"B 的孩子是 A"的形式
- 从 IMDB收集了前 1000 位最受欢迎的名人的列表，并查询 GPT-4 查找他们的父母
  - GPT-4 能够在 79% 的情况下识别名人的父母
- 对于每个子-父对，我们查询 GPT-4 来识别孩子。
  - GPT-4 的成功率仅为 33%
这个实验可能低估了 GPT-4 的能力。 GPT-4 可能已经过微调，以避免泄露有关个人的信息
- 这种微调可能会过于概括，有时会避免回答有关名人父母的问题
- ------>为了解决这个问题，论文评估了 Llama-1 系列的基本模型，该模型尚未进行微调。
- ------>发现所有模型在识别父母方面比识别孩子方面要好得多

5 实验3 问题（instruction）改变顺序

5.1 实验setting

5.2 结果

6 未来工作

6.1 解释逆转诅咒

是什么解释了自回归 LLMs 中的逆转诅咒？论文主要留给未来的工作
论文提供了一种解释：
- 当模型在 "A 是 B" 上进行更新时，这个梯度更新可能会稍微改变 A 的表示，以包含有关 B 的信息
- 梯度更新是短视的，依赖于给定 A 时 B 的概率对数，而不是在未来必须从 B 预测 A

6.2 研究其他类型的关系

模型是否无法逆转其他类型的关系
- 蕴涵（例如 "X 蕴涵 Y" 和 "非 X 蕴涵非 Y"）
- 空间关系（例如 "杯子在桌子上" 和 "桌子在杯子下面"）
- n 元关系（例如 "爱丽丝、鲍勃、卡罗尔和丹在同一组中"）

6.3 通过实体链接找到逆转失败原因

6.4 分析逆转诅咒的实际影响

现代 LLMs 的预训练集非常庞大且多样化。
因此，有用的信息可能会在数据集中多次出现，并以不同的顺序出现，这可能掩盖了逆转诅咒

上一篇：AWS游戏全球智能翻译，助力企业出海

下一篇：【YOLOv9】完胜V8的SOTA模型Yolov9(论文阅读笔记)

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03本地部署 OpenClaw + DeepSeek-R1 完全指南 04得物前端部门，没了 05OpenClaw 连接飞书完整指南：插件安装、配置与踩坑记录 06OpenClaw 飞书机器人不回复消息？3 小时踩坑总结 07Window 10部署openclaw报错node.exe : npm error code 128 08OpenClaw macOS 完整安装与本地模型配置教程（实战版）09npm-error code 128问题解决方法 10OpenClaw 接入 QQ Bot 完整实践指南