SuperHF: Supervised Iterative Learning from Human Feedback

本文是LLM系列文章,针对《SuperHF: Supervised Iterative Learning from Human Feedback》的翻译。

SuperHF:从人的反馈中监督迭代学习

  • 摘要
  • [1 引言](#1 引言)
  • [2 相关工作](#2 相关工作)
  • [3 背景](#3 背景)
  • [4 方法](#4 方法)
  • [5 实验](#5 实验)
  • [6 讨论与未来工作](#6 讨论与未来工作)
  • [7 结论](#7 结论)

摘要

人工智能领域越来越关注大规模语言模型,这些模型虽然表现出非凡的能力,但在安全性、与人类价值观的一致性以及训练过程中的稳定性方面往往存在挑战。在这里,我们重点介绍了两种常用的方法,即监督微调(SFT)和来自人类反馈的强化学习(RLHF)。SFT简单而稳健,为许多开源模型提供了动力,而RLHF是一种更复杂的方法,用于ChatGPT等顶级模型,但也存在不稳定性和易受奖励黑客攻击的问题。我们提出了一种新的方法,即从人类反馈中监督迭代学习(SuperHF),它试图利用这两种方法的优势。我们的假设有两个方面:我们假设RLHF中使用的奖励模型对于有效的数据使用和模型泛化至关重要,并且RLHF中可能没有必要使用近端策略优化(PPO),这可能会导致不稳定问题。SuperHF用简单的监督损失和Kullback-Leibler(KL)发散先验代替了PPO。它通过在在线学习机制中重复采样一批模型输出并通过奖励模型进行过滤来创建自己的训练数据。然后,我们将奖励优化问题分解为三个部分:稳健地优化训练奖励本身,防止奖励黑客攻击------或利用一种新的METEOR相似性度量来衡量可能降低模型性能的奖励模型,以及在下游评估中保持良好的性能。我们的实验结果表明,SuperHF在训练目标上超过了基于PPO的RLHF,轻松而有利地权衡了高回报和低回报的黑客攻击,改进了下游校准,并在我们基于GPT-4的定性评估方案上执行了相同的操作,同时实现起来明显更简单,突出了SuperHF作为一种具有竞争力的语言模型对齐技术的潜力。

1 引言

2 相关工作

3 背景

4 方法

5 实验

6 讨论与未来工作

7 结论

我们提出了一种从人类反馈中监督迭代学习(SuperHF),这是一种从标量人类反馈奖励信号中使基础模型与人类偏好相一致的新方法,它是基于近端策略优化(PPO)的人类反馈强化学习(RLHF)的替代方法。通过将人类反馈微调问题重新定义为贝叶斯推理,我们导出了SuperHF损失,这是一种简单的监督损失,包含了关键的KL发散先验。我们的实验表明,SuperHF有效地优化了问答的奖励模型分数,在使用KL分歧惩罚和从指令调整的基础模型开始时,在高奖励和低奖励游戏之间取得了良好的平衡,并将与RLHF一样好或更好的推广到GPT-4的下游任务和主观偏好评估中。

考虑到我们工作的更广泛影响,SuperHF简化了根据人类反馈进行的语言模型微调,使过程民主化,并提高了该领域的可访问性。重要的是要认识到这类工作中滥用增加的可能性------当前的语言模型对齐侧重于与任何偏好对齐的技术挑战,因此参与者既有将开放语言模型微调为不期望的偏好的风险,也有简单地使用指令遵循模型更容易输出有害或危险的响应的风险。但是,随着RLHF越来越广泛,越来越多的开源实现出现在网上,有必要对该方法进行批判性评估,发布更简单但希望更安全的方法成为一种越来越好的权衡(附录D中的X风险表中描述了其他考虑因素。总体而言,我们设想SuperHF和类似的研究方向最终有助于开发广泛的语言模型对齐工具,通过仔细的治理和稳健的评估,可以训练和部署未来的基础模型,使其更安全地与社会价值观对齐并保护社会价值观。

相关推荐
云卓SKYDROID17 小时前
无人机报警器8G信号技术解析
人工智能·无人机·航电系统·高科技·云卓科技
音视频牛哥17 小时前
具身智能的工程落地:视频-控制闭环的实践路径
人工智能·音视频·人工智能+·具身智能rtsp方案·具身智能rtmp方案·智能机器人rtsp方案·智能机器人rtmp低延迟
GEO_JYB17 小时前
从 MMLU 到 HumanEval:为什么评估大型语言模型(LLM)的基准至关重要?
人工智能·算法
FutureUniant17 小时前
GitHub每日最火火火项目(9.5)
人工智能·microsoft·计算机视觉·ai·github
视觉语言导航17 小时前
ICCV-2025 | 清华动以知景导航框架!MTU3D:连接视觉定位与探索,实现高效多样的具身导航
人工智能·具身智能
恒点虚拟仿真18 小时前
XR数字融合工作站打造智能制造专业学习新范式
人工智能·智能制造·虚拟仿真·虚拟仿真实验·xr数字融合工作站·虚拟仿真实训
豆浩宇18 小时前
学习PaddlePaddle--环境配置-Windows 11 + RTX 4060
人工智能·windows·深度学习·学习·目标检测·计算机视觉·paddlepaddle
qq_3391911418 小时前
深度学习玩游戏, 模型玩游戏,大模型+游戏 llm+game, 机器学习玩游戏,人工智能游戏陪伴,模型陪玩游戏
人工智能·深度学习·玩游戏
zskj_qcxjqr18 小时前
七彩喜微高压氧舱:科技与体验的双重革新,重新定义家用氧疗新标杆
大数据·人工智能·科技·机器人
2501_9307992418 小时前
访答知识库#Pdf转word#人工智能#Al编辑器#访答PAG#企业知识库……
人工智能