论文阅读：2024 NeurIPS Group Robust Preference Optimization in Reward-free RLHF

Group Robust Preference Optimization in Reward-free RLHF

速览

这篇论文主要讲了如何让大语言模型（LLMs）更好地适应不同群体的偏好，避免"一刀切"带来的不公平问题，以下是核心内容的通俗解读：

背景：大模型的"偏心"问题

现状：传统的大模型微调方法（如RLHF）假设所有用户的偏好可以用一个统一的模型来表示，这会导致"多数人偏好主导，少数人被忽视"。
比如，当不同群体对"社交媒体是否该加强监管"有相反意见时（如图1），模型可能只倾向多数群体（如G1）的观点，而忽略少数群体（如G2）的需求。
原因：人类社会由多个不同群体组成（如不同国家、文化、职业等），每个群体的偏好可能差异很大。传统方法没有考虑群体差异，导致模型对弱势群体的表现较差。

核心方法：GRPO（群体鲁棒偏好优化）

目标：让模型在所有群体中都能"稳健"表现，尤其提升表现最差群体的对齐效果，减少群体间的性能差异。
创新点 ：
1. 引入群体信息：在模型输入中加入群体标识（如"某国人群的观点"），让模型意识到不同群体的偏好差异。
2. 最坏情况优化：不再优化整体平均表现，而是专门优化"表现最差的群体"的损失，确保没有群体被严重忽视。
3. 自适应加权：通过算法动态调整不同群体的权重，优先关注累积损失高的群体（如图1下方的"自适应群体权重"机制）。

技术细节：如何实现？

实验验证：效果如何？

合成数据实验：在不同群体规模和偏好分布的场景中，GRPO显著降低了最差群体的损失，优于传统DPO和 Importance Sampling等基线方法（如图2）。
真实数据实验：使用全球意见数据集（GlobalOpinionQA）和开源模型Gemma-2B，验证了GRPO能减少不同国家群体间的性能差异，提升最差群体的准确率（如图3）。

总结：解决了什么问题？

一句话总结

这篇论文提出了一种让大语言模型"公平对待"不同群体的方法GRPO，通过动态调整群体权重和优化最差群体表现，解决了传统方法忽视群体差异的问题，让模型在多样化场景中更稳健、更公平。