通过胜率理解偏好学习的理论与优化方法

CodeShare2025-08-02 11:07

偏好学习（即通过偏好对比数据对齐生成模型）尚未达到分类或密度估计等任务的成熟度。为此，本文从成对偏好数据的抽样分布出发构建理论框架，证明生成模型的唯一合理评估指标是胜率（win rate），因其同时尊重数据分布中的偏好与流行度。

胜率优化方法（WRO）
- 包括RLHF、NLHF等，其共同理论优势为：
  - 保证模型性能与偏好数据的一致性
  - 提供对数据分布偏差的鲁棒性
- 本文提出新的WRO实例，扩展现有方法范畴。
非胜率优化方法（非WRO）
- 如DPO（直接偏好优化）或对偏好样本的监督微调（SFT），存在理论缺陷：
  - 无法保证与数据分布的严格对齐
  - 对采样偏差敏感
- 提出改进建议以弥补局限性。

本文通过胜率视角统一了偏好学习的理论分析，为现有方法提供评估标准，并指导后续研究路径。

更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）

公众号二维码