OPENCHAT: ADVANCING OPEN-SOURCE LANGUAGE MODELS WITH MIXED-QUALITY DATA

本文是LLM系列文章，针对《OPENCHAT: ADVANCING OPEN-SOURCE LANGUAGE MODELS WITH MIXED-QUALITY DATA》的翻译。

OPENCHAT：利用混合质量数据推进开源语言模型

摘要
[1 引言](#1 引言)
[2 前言](#2 前言)
[3 OpenChat](#3 OpenChat)
[4 实验](#4 实验)
[5 分析](#5 分析)
[6 相关工作](#6 相关工作)
[7 结论与未来工作](#7 结论与未来工作)

摘要

如今，像LLaMA这样的开源大型语言模型已经出现。最近的发展结合了监督微调（SFT）和强化学习微调（RLFT），以使这些模型与人类目标保持一致。然而，SFT方法平等地对待具有混合质量的所有训练数据，而RLFT方法需要高质量的成对或基于排名的偏好数据。在这项研究中，我们提出了一个新的框架，名为OpenChat，用于推进具有混合质量数据的开源语言模型。具体来说，我们考虑一般的SFT训练数据，由少量专家数据和大量次优数据组成，没有任何偏好标签。我们提出了C（条件）-RLFT，它将不同的数据源视为粗粒度的奖励标签，并学习类条件策略来利用互补的数据质量信息。有趣的是，C-RLFT中的最优策略可以通过单阶段、无RL的监督学习轻松求解，这是轻量级的，避免了昂贵的人类偏好标记。通过在三个标准基准上进行广泛的实验，我们使用C-RLFT微调的openchat-13b在所有13b开源语言模型中实现了最高的平均性能。此外，我们使用AGIEval来验证模型的泛化性能，其中只有openchat-13b超过了基本模型。最后，我们进行了一系列分析，以阐明OpenChat的有效性和稳健性。我们的代码、数据和模型在https://github.com/imoneoi/openchat上可用.

1 引言

2 前言

3 OpenChat

4 实验

5 分析

6 相关工作

7 结论与未来工作

在本文中，我们介绍了OpenChat，这是一个以条件RLFT方法为特色的创新框架，专门用于改进具有混合质量数据的开源语言模型。我们的模型openchat-13b在所有13b开源语言模型中，在广泛的基准测试中提供了最高的平均性能，展示了显著的优势，如简单、无RL训练和最低的奖励质量要求。尽管取得了这些令人鼓舞的结果，但我们承认有进一步改进的潜在研究领域。首先，我们根据数据源对不同质量的假设可能过于简单，分配的粗粒度奖励可以进行更精细的调整，以反映每个数据点的实际质量。其次，虽然我们的模型主要侧重于增强指令跟随能力，但探索OpenChat在提高LLM推理能力方面的应用为未来的工作提供了一条很有前途的途径。