论文阅读:2025 arxiv Aligning to What? Limits to RLHF Based Alignment

Aligning to What? Limits to RLHF Based Alignment

https://arxiv.org/pdf/2503.09025

https://www.doubao.com/chat/3871529075012866

速览

这篇论文主要探讨了强化学习从人类反馈(RLHF)在对齐大型语言模型(LLMs)时的局限性,尤其是在处理隐性和显性偏见方面。以下是核心内容的通俗解读:

1. 研究背景:RLHF真的能让模型"三观正"吗?

  • RLHF的作用 :现在训练大语言模型(如GPT、Llama)时,常通过RLHF让模型符合人类偏好,比如更无害、更有帮助。但问题在于,人类反馈可能有偏差,而且RLHF是否能有效减少模型的隐性偏见(比如对非裔美国人的刻板印象)并不清楚。
  • 隐性偏见 vs 显性偏见
    • 显性偏见:模型明确提到种族时表现出的偏见(如直接说"黑人=懒惰")。
    • 隐性偏见:模型通过语言风格(如非裔美式英语AAE vs 标准美式英语SAE)间接表现的偏见(如将AAE与负面特质关联)。

2. 实验设计:用不同方法测试RLHF的效果

  • 模型与数据

    • 用Llama 3 8B和Mistral等模型,通过RLHF方法(DPO、ORPO、RLOO)训练,测试其对AAE和SAE的偏见。
    • 设计了匹配伪装探测(matched-guise probing):给模型不同方言的句子,看它是否将特定特质(如"聪明""粗鲁")与某一方言关联。
    • 还扩展到多模态模型(如Llama 3.2 Vision):用图像中的种族信息测试显性偏见。
  • 关键操作

    • 对比"有监督微调(SFT)后再RLHF"和"直接RLHF"的效果。
    • 用仅含AAE的数据集训练,看是否能减少偏见。

3. 核心发现:RLHF对隐性偏见效果有限

  • 发现1:RLHF难改隐性偏见

    • 无论用哪种RLHF方法(DPO、ORPO等),模型对AAE/SAE的隐性偏见(如将AAE与极端正负特质关联)几乎没有显著变化
    • 例如,Llama 3在RLHF后,仍倾向于将AAE与"热情""冲动"等极端特质关联,而SAE与中性特质关联。
  • 发现2:有监督微调(SFT)可能固化偏见

    • 在RLHF前先进行SFT(用常规数据训练),会让模型的偏见更"顽固",更难通过RLHF改变。
  • 发现3:显性偏见可改,但可能引入新问题

    • RLHF能调整显性偏见(如直接提到种族时的评价),但可能产生权衡:减少一种偏见的同时,可能引入另一种。
    • 例如,Llama 3-Instruct模型的显性偏见减少,但隐性偏见依然存在,甚至可能将更多特质与SAE关联(从"偏见A"变成"偏见B")。
  • 发现4:多模态模型的偏见可能矛盾

    • 在Llama 3.2 Vision中,仅用文本时模型对AAE有隐性偏见,但用图像(黑人/白人面孔)时,显性偏见却相反(将负面特质与白人关联)。这表明外显和内隐偏见可能割裂

4. 为什么RLHF不管用?

  • 数据问题

    • 人类反馈数据可能缺乏针对隐性偏见的明确标注,导致RLHF无法有效优化。
    • 预训练数据中SAE占比远高于AAE,模型可能"默认"SAE更"正常",RLHF难以逆转这种深层关联。
  • 方法局限

    • RLHF依赖明确的奖励信号(如"用户更喜欢这个回答"),但隐性偏见是模糊的、间接的,难以通过简单的"偏好打分"捕捉和纠正。
    • 奖励模型本身可能有偏差,导致RLHF优化方向出错。

5. 启示与未来方向

  • 当前RLHF的不足:对复杂、隐性的社会偏见(如方言歧视)效果有限,需改进数据收集和对齐方法。
  • 改进方向
    • 设计更敏感的偏见检测工具(如多模态结合)。
    • 构建更均衡的训练数据,增加少数群体语言的代表性。
    • 探索不依赖人类直接反馈的对齐方法,或结合心理学理论(如隐性联想测试)优化模型。

总结

这篇论文泼了盆冷水:RLHF虽然能让模型在表面上更"合规",但对深层的隐性偏见效果微弱,甚至可能因数据和方法限制导致新问题。要让AI真正"公平",可能需要从数据源头、训练方法到评估体系的全面革新。

相关推荐
s1ckrain12 小时前
【论文阅读】VARGPT-v1.1
论文阅读·多模态大模型·统一生成模型
Catching Star15 小时前
【论文笔记】【强化微调】Vision-R1:首个针对多模态 LLM 制定的强化微调方法,以 7B 比肩 70B
论文阅读·强化微调
王上上15 小时前
【论文阅读41】-LSTM-PINN预测人口
论文阅读·人工智能·lstm
s1ckrain1 天前
【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning
论文阅读·强化学习·多模态大模型·vlm
张较瘦_2 天前
[论文阅读] 人工智能 + 软件工程 | 需求获取访谈中LLM生成跟进问题研究:来龙去脉与创新突破
论文阅读·人工智能
北京地铁1号线2 天前
GPT-2论文阅读:Language Models are Unsupervised Multitask Learners
论文阅读·gpt·语言模型
张较瘦_3 天前
[论文阅读] 人工智能 + 软件工程 | 软件架构中自然问题主动辅助研究:从挑战到解决方案
论文阅读·人工智能·软件工程
有Li3 天前
通过具有一致性嵌入的大语言模型实现端到端乳腺癌放射治疗计划制定|文献速递-最新论文分享
论文阅读·深度学习·分类·医学生
张较瘦_3 天前
[论文阅读] 人工智能 | 深度学习系统崩溃恢复新方案:DaiFu框架的原位修复技术
论文阅读·人工智能·深度学习
selia10783 天前
[论文阅读] Neural Architecture Search: Insights from 1000 Papers
论文阅读