论文笔记:The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”

iclr 2024 reviewer 评分668

1 intro

  • 论文揭示了自回归大模型(LLM)中令人惊讶的泛化失败【反转诅咒】
    • 如果模型在"A is B"形式的句子上进行训练,它不会自动泛化到相反的方向"B is A"
  • 通过对"Uriah Hawthorne 是深渊旋律的作曲家"等虚构陈述进行微调 GPT-3 和 Llama-1 来提供反转诅咒的证据,并表明它们未能正确回答"谁创作了深渊旋律?"【微调的反转诅咒】
    • 反转诅咒在模型大小和模型系列中都很常见,并且不会通过数据增强得到缓解
  • 还针对有关现实世界名人的问题评估 ChatGPT(GPT3.5 和 GPT-4),例如"汤姆·克鲁斯的母亲是谁? [A:玛丽·李·菲佛]"和相反的"谁是玛丽·李·菲佛的儿子?"。【推理的反转诅咒】
    • GPT-4 正确回答前一类问题的正确率是 79%,而后者的正确率是 33%

2 反转诅咒的微调测试

  • 根据虚构事实微调模型,其中名称(例如"Daphne Barrington")位于描述(例如"...的导演")之前,然后按照两个顺序向模型提出问题。
  • 当顺序与微调相匹配时,模型通常能够回答问题
  • 另一个顺序提问就不行
    • 这个方向上提问,模型获得正确名称的可能性并不高于随机名称的可能性
    • ------>这展示了逆转诅咒

3 实验1:反转虚构name-description的顺序

3.1 实验的设置

3.1.1 需要的prompt

3.2 实验结果

同向效果好;反向效果和random没什么区别

4 实验2:现实世界知识的反转诅咒

4.1 实验设置

  • 测试了关于实际名人及其父母的事实模型,这些模型具有"A 的父母是 B"和"B 的孩子是 A"的形式
    • 从 IMDB收集了前 1000 位最受欢迎的名人的列表,并查询 GPT-4 查找他们的父母
      • GPT-4 能够在 79% 的情况下识别名人的父母
    • 对于每个子-父对,我们查询 GPT-4 来识别孩子。
      • GPT-4 的成功率仅为 33%
  • 这个实验可能低估了 GPT-4 的能力。 GPT-4 可能已经过微调,以避免泄露有关个人的信息
    • 这种微调可能会过于概括,有时会避免回答有关名人父母的问题
    • ------>为了解决这个问题,论文评估了 Llama-1 系列的基本模型,该模型尚未进行微调。
    • ------>发现所有模型在识别父母方面比识别孩子方面要好得多

5 实验3 问题(instruction)改变顺序

5.1 实验setting

5.2 结果

6 未来工作

6.1 解释逆转诅咒

  • 是什么解释了自回归 LLMs 中的逆转诅咒?论文主要留给未来的工作
  • 论文提供了一种解释:
    • 当模型在 "A 是 B" 上进行更新时,这个梯度更新可能会稍微改变 A 的表示,以包含有关 B 的信息
    • 梯度更新是短视的,依赖于给定 A 时 B 的概率对数,而不是在未来必须从 B 预测 A

6.2 研究其他类型的关系

  • 模型是否无法逆转其他类型的关系
    • 蕴涵(例如 "X 蕴涵 Y" 和 "非 X 蕴涵非 Y")
    • 空间关系(例如 "杯子在桌子上" 和 "桌子在杯子下面")
    • n 元关系(例如 "爱丽丝、鲍勃、卡罗尔和丹在同一组中")

6.3 通过实体链接找到逆转失败原因

6.4 分析逆转诅咒的实际影响

  • 现代 LLMs 的预训练集非常庞大且多样化。
  • 因此,有用的信息可能会在数据集中多次出现,并以不同的顺序出现,这可能掩盖了逆转诅咒
相关推荐
赵庆明老师14 小时前
CSSCI论文写作14:如何用学术语言呈现论证
论文阅读·论文写作
StfinnWu15 小时前
论文阅读 Guided Real Image Dehazing Using YCbCr Color Space
论文阅读·计算机视觉
民乐团扒谱机16 小时前
【读论文】基于非线性光学的全光子人工神经网络处理器
论文阅读·笔记·论文
有Li19 小时前
SparseXMIL: 利用稀疏卷积实现数字病理学全玻片图像上下文感知和内存高效分类/文献速递-多模态医学影像最新进展
论文阅读·文献·医学生
西柚小萌新2 天前
【论文阅读】--MIRIX:面向多智能体的记忆系统
论文阅读
ccLianLian2 天前
论文阅读·多模态工作
论文阅读
网安INF2 天前
【论文阅读】-《Formalizing and Benchmarking Prompt Injection Attacks and Defenses》
论文阅读·大模型·prompt·ai安全
CV-杨帆2 天前
论文阅读:arxiv 2026 A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)
论文阅读
张小泡泡2 天前
Graph Retrieval-Augmented Generation: A Survey
论文阅读·人工智能·rag·graphrag
锅挤3 天前
来一篇儿:《CGBA:Curvature-aware Geometric Black-box Attack》
论文阅读