论文阅读:2025 arxiv Aligning to What? Limits to RLHF Based Alignment

Aligning to What? Limits to RLHF Based Alignment

https://arxiv.org/pdf/2503.09025

https://www.doubao.com/chat/3871529075012866

速览

这篇论文主要探讨了强化学习从人类反馈(RLHF)在对齐大型语言模型(LLMs)时的局限性,尤其是在处理隐性和显性偏见方面。以下是核心内容的通俗解读:

1. 研究背景:RLHF真的能让模型"三观正"吗?

  • RLHF的作用 :现在训练大语言模型(如GPT、Llama)时,常通过RLHF让模型符合人类偏好,比如更无害、更有帮助。但问题在于,人类反馈可能有偏差,而且RLHF是否能有效减少模型的隐性偏见(比如对非裔美国人的刻板印象)并不清楚。
  • 隐性偏见 vs 显性偏见
    • 显性偏见:模型明确提到种族时表现出的偏见(如直接说"黑人=懒惰")。
    • 隐性偏见:模型通过语言风格(如非裔美式英语AAE vs 标准美式英语SAE)间接表现的偏见(如将AAE与负面特质关联)。

2. 实验设计:用不同方法测试RLHF的效果

  • 模型与数据

    • 用Llama 3 8B和Mistral等模型,通过RLHF方法(DPO、ORPO、RLOO)训练,测试其对AAE和SAE的偏见。
    • 设计了匹配伪装探测(matched-guise probing):给模型不同方言的句子,看它是否将特定特质(如"聪明""粗鲁")与某一方言关联。
    • 还扩展到多模态模型(如Llama 3.2 Vision):用图像中的种族信息测试显性偏见。
  • 关键操作

    • 对比"有监督微调(SFT)后再RLHF"和"直接RLHF"的效果。
    • 用仅含AAE的数据集训练,看是否能减少偏见。

3. 核心发现:RLHF对隐性偏见效果有限

  • 发现1:RLHF难改隐性偏见

    • 无论用哪种RLHF方法(DPO、ORPO等),模型对AAE/SAE的隐性偏见(如将AAE与极端正负特质关联)几乎没有显著变化
    • 例如,Llama 3在RLHF后,仍倾向于将AAE与"热情""冲动"等极端特质关联,而SAE与中性特质关联。
  • 发现2:有监督微调(SFT)可能固化偏见

    • 在RLHF前先进行SFT(用常规数据训练),会让模型的偏见更"顽固",更难通过RLHF改变。
  • 发现3:显性偏见可改,但可能引入新问题

    • RLHF能调整显性偏见(如直接提到种族时的评价),但可能产生权衡:减少一种偏见的同时,可能引入另一种。
    • 例如,Llama 3-Instruct模型的显性偏见减少,但隐性偏见依然存在,甚至可能将更多特质与SAE关联(从"偏见A"变成"偏见B")。
  • 发现4:多模态模型的偏见可能矛盾

    • 在Llama 3.2 Vision中,仅用文本时模型对AAE有隐性偏见,但用图像(黑人/白人面孔)时,显性偏见却相反(将负面特质与白人关联)。这表明外显和内隐偏见可能割裂

4. 为什么RLHF不管用?

  • 数据问题

    • 人类反馈数据可能缺乏针对隐性偏见的明确标注,导致RLHF无法有效优化。
    • 预训练数据中SAE占比远高于AAE,模型可能"默认"SAE更"正常",RLHF难以逆转这种深层关联。
  • 方法局限

    • RLHF依赖明确的奖励信号(如"用户更喜欢这个回答"),但隐性偏见是模糊的、间接的,难以通过简单的"偏好打分"捕捉和纠正。
    • 奖励模型本身可能有偏差,导致RLHF优化方向出错。

5. 启示与未来方向

  • 当前RLHF的不足:对复杂、隐性的社会偏见(如方言歧视)效果有限,需改进数据收集和对齐方法。
  • 改进方向
    • 设计更敏感的偏见检测工具(如多模态结合)。
    • 构建更均衡的训练数据,增加少数群体语言的代表性。
    • 探索不依赖人类直接反馈的对齐方法,或结合心理学理论(如隐性联想测试)优化模型。

总结

这篇论文泼了盆冷水:RLHF虽然能让模型在表面上更"合规",但对深层的隐性偏见效果微弱,甚至可能因数据和方法限制导致新问题。要让AI真正"公平",可能需要从数据源头、训练方法到评估体系的全面革新。

相关推荐
Junewang06146 小时前
【论文阅读】Farewell to Item IDs
论文阅读·推荐算法
CV-杨帆6 小时前
论文阅读:arxiv 2026 A Systematic Security Evaluation of OpenClaw and Its Variants
论文阅读
iiiiii116 小时前
【论文阅读笔记】ReVal:让大模型强化学习真正支持离策略(off-policy)数据复用
论文阅读·笔记·语言模型·大模型·llm
就是这么拽呢18 小时前
论文查重低但AIGC率高,如何补救?
论文阅读·人工智能·ai·aigc
森诺Alyson1 天前
前沿技术借鉴研讨-2026.4.9(视觉语言模型)
论文阅读·人工智能·经验分享·语言模型·自然语言处理·论文笔记·论文讨论
CV-杨帆2 天前
论文阅读:ICML 2025 COLLABLLM: From Passive Responders to Active Collaborators
论文阅读
CV-杨帆2 天前
论文阅读:arixv 2026 ClawSafety: “Safe“ LLMs, Unsafe Agents
论文阅读
温九味闻醉3 天前
论文阅读:Meta | HSTU
论文阅读
做cv的小昊3 天前
结合代码读3DGS论文(12)——NeurIPS 2024 Spotlight 3DGS经典Backbone工作3DGS-MCMC论文及代码解读
论文阅读·计算机视觉·3d·图形渲染·游戏开发·计算机图形学·3dgs
min1811234564 天前
小型网站开发简易流程步骤 在线画图工具快速生成开发流程图方法
论文阅读·信息可视化·毕业设计·流程图·论文笔记