论文阅读：2025 arxiv Aligning to What? Limits to RLHF Based Alignment

Aligning to What? Limits to RLHF Based Alignment

速览

这篇论文主要探讨了强化学习从人类反馈（RLHF）在对齐大型语言模型（LLMs）时的局限性，尤其是在处理隐性和显性偏见方面。以下是核心内容的通俗解读：

1. 研究背景：RLHF真的能让模型"三观正"吗？

RLHF的作用 ：现在训练大语言模型（如GPT、Llama）时，常通过RLHF让模型符合人类偏好，比如更无害、更有帮助。但问题在于，人类反馈可能有偏差，而且RLHF是否能有效减少模型的隐性偏见（比如对非裔美国人的刻板印象）并不清楚。
隐性偏见 vs 显性偏见 ：
- 显性偏见：模型明确提到种族时表现出的偏见（如直接说"黑人=懒惰"）。
- 隐性偏见：模型通过语言风格（如非裔美式英语AAE vs 标准美式英语SAE）间接表现的偏见（如将AAE与负面特质关联）。

2. 实验设计：用不同方法测试RLHF的效果

模型与数据：
- 用Llama 3 8B和Mistral等模型，通过RLHF方法（DPO、ORPO、RLOO）训练，测试其对AAE和SAE的偏见。
- 设计了匹配伪装探测（matched-guise probing）：给模型不同方言的句子，看它是否将特定特质（如"聪明""粗鲁"）与某一方言关联。
- 还扩展到多模态模型（如Llama 3.2 Vision）：用图像中的种族信息测试显性偏见。
关键操作：
- 对比"有监督微调（SFT）后再RLHF"和"直接RLHF"的效果。
- 用仅含AAE的数据集训练，看是否能减少偏见。

3. 核心发现：RLHF对隐性偏见效果有限

发现1：RLHF难改隐性偏见
- 无论用哪种RLHF方法（DPO、ORPO等），模型对AAE/SAE的隐性偏见（如将AAE与极端正负特质关联）几乎没有显著变化。
- 例如，Llama 3在RLHF后，仍倾向于将AAE与"热情""冲动"等极端特质关联，而SAE与中性特质关联。
发现2：有监督微调（SFT）可能固化偏见
- 在RLHF前先进行SFT（用常规数据训练），会让模型的偏见更"顽固"，更难通过RLHF改变。
发现3：显性偏见可改，但可能引入新问题
- RLHF能调整显性偏见（如直接提到种族时的评价），但可能产生权衡：减少一种偏见的同时，可能引入另一种。
- 例如，Llama 3-Instruct模型的显性偏见减少，但隐性偏见依然存在，甚至可能将更多特质与SAE关联（从"偏见A"变成"偏见B"）。
发现4：多模态模型的偏见可能矛盾
- 在Llama 3.2 Vision中，仅用文本时模型对AAE有隐性偏见，但用图像（黑人/白人面孔）时，显性偏见却相反（将负面特质与白人关联）。这表明外显和内隐偏见可能割裂。

4. 为什么RLHF不管用？

数据问题：
- 人类反馈数据可能缺乏针对隐性偏见的明确标注，导致RLHF无法有效优化。
- 预训练数据中SAE占比远高于AAE，模型可能"默认"SAE更"正常"，RLHF难以逆转这种深层关联。
方法局限：
- RLHF依赖明确的奖励信号（如"用户更喜欢这个回答"），但隐性偏见是模糊的、间接的，难以通过简单的"偏好打分"捕捉和纠正。
- 奖励模型本身可能有偏差，导致RLHF优化方向出错。

5. 启示与未来方向

当前RLHF的不足：对复杂、隐性的社会偏见（如方言歧视）效果有限，需改进数据收集和对齐方法。
改进方向 ：
- 设计更敏感的偏见检测工具（如多模态结合）。
- 构建更均衡的训练数据，增加少数群体语言的代表性。
- 探索不依赖人类直接反馈的对齐方法，或结合心理学理论（如隐性联想测试）优化模型。

总结

这篇论文泼了盆冷水：RLHF虽然能让模型在表面上更"合规"，但对深层的隐性偏见效果微弱，甚至可能因数据和方法限制导致新问题。要让AI真正"公平"，可能需要从数据源头、训练方法到评估体系的全面革新。