[Arxiv 2024] Self-Rewarding Language Models

Contents

Introduction

  • 作者提出 Self-Rewarding 训练框架,LLM 在训练过程中同时担任 actor 和 critic,actor 负责合成新数据,critic 负责判断合成数据质量用于组成高质量的偏好数据集用于模型的下一轮训练,在训练过程中,模型的 actor 和 critic 能力也会同步得到提升,从而逐步生成更高质量的数据并基于此不断迭代训练,使得 LLM 训练仅需少量人工标注数据 ,并获得 super-human feedback

Method

  • Initialization . 初始训练阶段需要一定量人类标注的 Seed instruction following dataSeed LLM-as-a-Judge instruction following data,使得预训练 LLM 获得一定的指令服从和回复质量评估能力
  • Self-Instruction Creation . 一轮训练完成后,LLM 可以自行生成 AI Feedback Training (AIFT) data 加入原始数据集用于下一轮训练. (1) 使用 few-shot prompting 生成新 prompts;(2) LLM 对每个 prompt 采样生成 N N N 个 responses;(3) 通过 LLM-as-a-Judge 给每个 response 评分,然后选择评分最高和最低的 responses 组成 preference pairs 用于下一轮 DPO 训练

Experiments

  • Instruction Following Ability .
  • Reward Modeling Ability .

References

相关推荐
Florian13 天前
RAG七十二式:2024年度RAG清单
graph·rag·2024·survey·tugraph
安全二次方security²1 个月前
2024 RISC-V 中国峰会 演讲幻灯片和视频回放 均已公开
视频·risc-v·中国峰会·risc-v安全·ppt·2024
少说多想勤做3 个月前
【前沿 热点 顶会】NIPS 2024中目标检测有关的论文
人工智能·目标检测·机器学习·计算机视觉·目标跟踪·nips·2024
连理o4 个月前
[NeurIPS 2024] Self-Refine: Iterative Refinement with Self-Feedback
neurips·2024
少说多想勤做5 个月前
【计算机视觉前沿研究 热点 顶会】CVPR 2024中与域适应、分布外目标检测相关的论文
人工智能·目标检测·计算机视觉·论文笔记·cvpr·2024
任铄6 个月前
2024年上半年网络工程师下午真题及答案解析
网络工程师·软考·答案·网络管理·2024·2024年上半年·下午真题
Z3r4y7 个月前
【Web】CISCN 2024初赛 题解(全)
web安全·网络安全·web·ctf·wp·2024·ciscn
ladymorgana7 个月前
【挑战30天首通《谷粒商城》】-【第一天】03、简介-分布式基础概念
分布式·idea·全家桶·2024·谷粒商城·激活码·永久
想转码的电筒人8 个月前
2023年蓝桥杯大学A组第二题:有奖问答(一维动态规划解法)
c++·蓝桥杯·动态规划·2024