[Arxiv 2024] Self-Rewarding Language Models

连理o2024-08-29 14:04

Contents

Introduction
Method
Experiments
References

Introduction

作者提出 Self-Rewarding 训练框架，LLM 在训练过程中同时担任 actor 和 critic，actor 负责合成新数据，critic 负责判断合成数据质量用于组成高质量的偏好数据集用于模型的下一轮训练，在训练过程中，模型的 actor 和 critic 能力也会同步得到提升，从而逐步生成更高质量的数据并基于此不断迭代训练，使得 LLM 训练仅需少量人工标注数据 ，并获得 super-human feedback

Method

Initialization . 初始训练阶段需要一定量人类标注的 Seed instruction following data 和 Seed LLM-as-a-Judge instruction following data，使得预训练 LLM 获得一定的指令服从和回复质量评估能力
Self-Instruction Creation . 一轮训练完成后，LLM 可以自行生成 AI Feedback Training (AIFT) data 加入原始数据集用于下一轮训练. (1) 使用 few-shot prompting 生成新 prompts；(2) LLM 对每个 prompt 采样生成 N N N 个 responses；(3) 通过 LLM-as-a-Judge 给每个 response 评分，然后选择评分最高和最低的 responses 组成 preference pairs 用于下一轮 DPO 训练

Experiments

Instruction Following Ability .
Reward Modeling Ability .

References

上一篇：大语言模型-GLM-General Language Model Pretraining

下一篇：轻量级冠军：NVIDIA 发布具有领先准确率的小语言模型

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 年 AI 大模型 & AI 编程工具实战全总结 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？102026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元