NLP论文速读(ICML 2024)|面相对齐大语言模型的迁移和合并奖励模型方法

论文速读 |Transforming and Combining Rewards for Aligning Large Language Models

论文信息:

简介:

本文探讨了如何使大型语言模型(LLMs)与人类偏好对齐。传统的对齐方法是先从偏好数据中学习一个奖励模型,然后使用这个奖励模型来更新语言模型。这种方法的背景是,我们希望语言模型的输出具有某些期望的属性,例如有帮助、无害、真实或有创造性。然而,这种方法面临两个主要问题:奖励模型的单调变换如何影响对齐效果,以及如何将多个奖励模型结合起来以对齐到多个属性。

本文的动机是通过概率解释对齐过程来改进语言模型的对齐效果。作者认为,对齐的目标是使模型输出符合特定属性的后验分布。因此,对齐到多个属性的目标是生成在所有属性上都"好"的输出样本。这种概率解释需要定义输出何时被认为是"好"的。在从偏好数据中学习的奖励模型的背景下,作者认为如果输出的奖励值大于某个特定于提示的参考值,则该输出是"好"的。

论文方法:

本文提出了一种称为**"LSC-变换"(log-sigmoid-centered transformation)**的方法来变换奖励模型。这种方法包括以下步骤:

**对齐目标的形式化:**首先定义对齐目标,即生成在特定属性上被认为是"好"的输出样本的分布。

**奖励变换:**作者推导出一种自然的变换选择,即对中心化的奖励应用log-sigmoid函数。这种变换有两个重要属性:

**强调改进表现不佳的输出:**通过减少非常高奖励值的边际效用,鼓励模型改进表现不佳的提示,并阻止模型通过优化超出奖励模型有效范围的奖励来进行"奖励黑客攻击"。

**奖励的合理聚合:**通过将变换后的奖励求和来实现逻辑与(AND)操作,即变换后的奖励之和对应于输出在所有测量属性上都是"好"的概率。

论文实验:

Figure 3展示了使用变换后的奖励与未变换的奖励进行对齐时的改进情况。图中比较了两种评估策略下的对齐模型相对于SFT(Supervised Finetuning)模型的胜率。

评估策略包括:

1)使用由PALM-2评估器判断的提示,比较对齐策略和随机SFT样本之间的胜率。

2)使用T5-XXL评估器,与SFT分位数(帮助性为85%,无害性为95%)进行比较的胜率。

结果显示,使用变换后的奖励进行对齐在所有KL距离水平上均优于使用原始奖励进行对齐。

论文链接:

https://arxiv.org/pdf/2402.00742

相关推荐
在水一缸8 分钟前
重塑前端开发认知:当 AI 遇见 HTML 的“不合理有效性”
前端·人工智能·html·ai编程·claude·前端开发
果丁智能8 分钟前
智慧校园一卡通深度融合方案:基于超级SIM卡的手机碰一碰智能开锁技术落地实践
数据结构·人工智能·python·科技·算法·智能家居·信息与通信
Rubin智造社8 分钟前
智读致用《埃隆之书·番外篇》|SpaceX上市:从“10%成功率”到2万亿美元:一场赌上一切的万亿豪赌
人工智能·星链·商业航天·埃隆之书·spacex上市·史上最大ipo·太空ai
eric-sjq9 分钟前
Xiaothink-T17-Tiny 模型深度解析:轻量级RNN架构的创新与实战评测
人工智能·深度学习·语言模型·自然语言处理·架构
在水一缸11 分钟前
WeClaw_61_当AI把内部协议泄漏给用户:DeepSeek DSML标记污染content字段的全链路排查与修复
人工智能·api安全·流式处理·deepseek·bug修复·dsml·数据泄漏
通信仿真爱好者12 分钟前
第【19】期--基于监督学习的无人机安全通信的联合轨迹优化与功率分配研究--python完整代码+文档
深度学习·无人机·轨迹优化·物理层安全·功率优化
Cosolar12 分钟前
72小时生死时速:一文读懂引爆Fable模型禁令的越狱技术风暴
人工智能·后端·程序员
mit6.82415 分钟前
大模型基础设施 KV Cache
人工智能
Haibakeji15 分钟前
长沙定制开发教育APP哪家软件公司强
大数据·人工智能
Swift社区15 分钟前
AI Native 鸿蒙 App:从页面驱动到智能驱动的架构革命
人工智能·架构·harmonyos