ChatGPT发布一周年了，开源大模型都迎头赶上了吗？

论文旨在成为研究界和商业领域的重要资源，帮助他们了解开源大模型的当前格局和未来潜力。

一年前的今天，ChatGPT 横空出世，人工智能的新时代似乎已经到来。短短两个月，ChatGPT 积累了一亿用户，速度远超 TikTok 和 YouTube 等热门应用；似乎每隔几天就会有新的基于生成式人工智能的创业公司出现；以 ChatGPT 和 GPT-4 为核心的智能助手也开始走进各个行业中，帮助普通用户简化工作流程和提高效率。

但众所周知，ChatGPT 并未开源，不仅技术细节未知，部分国家和地区也不在 OpenAI 的服务范围之内。这种封闭性带来了一系列问题：如服务的稳定度，高昂的 API 成本，数据所有权和隐私问题等。因此，与闭源模型相比，开源社区的力量备受期待。虽然，许多基础模型在发布之初仍然无法接近 ChatGPT 的性能，但随着大量技术上的研究和探索，已经有部分开源大模型或小型专有模型迎头赶上。如图一中所示，在部分任务上，最好的开源大模型已经表现得比 ChatGPT 更好。

本周，来自南洋理工大学，Salesforce Research，以及新加坡科技研究局等机构的研究者们推出了一篇总结性的论文，调研了在各个领域与任务中与 ChatGPT 表现相当甚至优于其的开源大模型。论文旨在成为研究界和商业领域的重要资源，帮助他们了解开源大模型的当前格局和未来潜力。

论文链接：arxiv.org/pdf/2311.16...
陈海林 *，焦方锴 *，李星漩 *，秦成伟 *, Mathieu Ravaut *, 赵若辰 *，Caiming Xiong, Shafiq Joty (* 为共同一作)
数据代码：github.com/ntunlp/Open...

I. 综合能力

Llama-2-70B 是开源社区最核心及衍生模型最多的 LLM，其预训练过程使用了包含两万亿 Token 的大规模语料。Llama-2-70B 作为基础模型已经在综合性基准测试上展示出了极为优秀的性能。而经过了指令微调和对齐的 Llama-70b-chat-70B 则在通用对话任务中表现出进一步的性能提升，并能在 AlpacaEval（测试指令跟随能力的数据集）上取得 92.66% 的胜率，领先 ChatGPT 10.95% 的绝对性能。此外，GPT-4 仍是所有 LLM 中的佼佼者，胜率答到了 95.28%。

Zephyr-7B 是由 Huggingface 团队训练的小型语言模型。与 ChatGPT 或者 Llama-2 不同，它使用 Direct Preference Optiomization（DPO，直接偏好优化）完成对齐。在 AlpacaEval 上，Zephyr-7B 取得了 90.6% 的胜率，与 70B 级别的 LLM 表现相当，同样也胜过了 ChatGPT。在 MT-Bench（测试多轮对话和指令跟随能力的数据集）上，Zephyr-7B 的性能甚至超过了 Llama-2-chat-70B。

WizardLM-70B 利用自动化构造的大量复杂程度不同的指令数据进行微调，成为 MT-Bench 上得分最高的开源 LLM，得分为 7.71。它同样在 AlpacaEval 上超过了 ChatGPT。

GodziLLa2-70B 把多种专有 LoRA 和 Guanaco Llama 2 1K 数据集与 Llama-2-70B 相结合，在 Open LLM Leaderboard（结合了多个推理和问答任务的数据集）的表现与 ChatGPT 相当。然而，WizardLM-70B 和 GodziLLa-70B 仍然明显落后于 GPT-4。

UltraLlama 使用了更多样和质量更高的数据进行微调训练，在其提出的基准测试上（未在上图表中展示）与 ChatGPT 的表现持平，并在回答需要结合专业知识的问题上超过了 ChatGPT 的表现。

II. 具体任务上超越 ChatGPT 的开源大模型

1.AI 智能体（Agent）

Lemur-70B-chat 团队探索了训练数据中代码和文本更优的配比。通过在包含 90B Token 和 300K 示例的代码 - 文本混合语料上进行训练和指令微调，Lemur-70B-chat 在能够接收来自环境以及编码任务的自然语言反馈以完成目标的设置下，超越了 ChatGPT 的表现。AgentTuning 结合自行构建的 AgentInstruct 数据集和通用领域指令数据在 Llama-2 上进行指令微调。值得注意的是，AgentLlama-70B 在未见过的智能体任务上达到了与 ChatGPT 持平的表现。

通过在 ToolBench 上对 Llama-2-7B 进行微调，ToolLLaMA 在工具使用评估中展现出与 ChatGPT 相当的表现。

FireAct 通过对 Llama-2-13B 进行微调，在 HotpotQA 上胜过基于 ReAct 模式的提示式 ChatGPT。

此外，从 Llama-7B 微调而来的 Gorilla 在编写 API 调用方面优于 GPT-4。

2. 逻辑推理

WizardCoder 和 WizardMatch 基于 WizardLM，在知识的宽度和广度上对微调使用的指令数据集进行了拓展。实验表明，WizardCoder 在 HumanEval 上比 ChatGPT 表现更好，提升了 19.1%。而 WizardMath 在 GSM8K 上与 ChatGPT 相比也取得了了 42.9% 的提升。

除了在智能体相关的任务上表现出色，Lemur 在编程与求解数学题等考察逻辑的任务上性能也得到了显著提升。同时，Lemur-70B 在不经过特定任务微调的情况下，在 HumanEval 和 GSM8K 上的表现显著优于 ChatGPT。此外，Phi 使用高质量教科书语料作为主要数据进行预训练，使得较小的语言模型也可以拥有强大的能力。从结果上看，参数量仅为 1.3B 的 Phi-1 相比 ChatGPT 在 HumanEval 上取得了约 3% 的性能提升。

3. 长文本能力建模

Llama-2-long 使用 16k 上下文窗口对 Llama-2 进行持续训练。其中 Llama-2-long-chat-70B 在 ZeroSCROLLS 上的表现为 37.7，优于 ChatGPT-16k 的 36.7。处理长文本任务的方法通常为两种：（1）采用位置插值扩展上下文窗口，这涉及对更长上下文窗口进行另一轮微调；（2）检索增强，需要访问检索器以查找相关信息。通过结合这两种看似相反的技术，Llama2-70B-32k-ret $1$ 在 7 个长文本任务（包括来自 ZeroSCROLLS 的 4 个数据集）上的平均表现超过了 ChatGPT-16k。

4. 其他特定领域的应用能力

(1) 以查询为焦点的摘要： $2$ 发现，与 ChatGPT 相比，微调训练在性能上仍然更好。在 CovidET、NEWTS、QMSum 和 SQuALITY 等数据集上，该类方法对比 ChatGPT 平均提升 2 个点的 ROUGE-1。

(2) 开放域问答：InstructRetro 在 NQ、TriviaQA、SQuAD 2.0 和 DROP 数据集上展现出比 GPT-3 更好的表现。与相似参数量的专有 GPT-instruct 模型相比，InstructRetro 在一系列短文和长文开放域问答数据集上有 7-10% 的领先。

(3) 医疗：在心理健康方面，MentalLlama-chat-13B 基于 IMHI 训练集微调了一个 Llama-chat-13B 模型。在零样本提示下，MentalLlama-chat-13B 模型在 IMHI 的 10 项任务中，9 项任务的表现优于 ChatGPT。Radiology-Llama-2 模型基于放射学报告对 Llama 进行微调，在 MIMIC-CXR 和 OpenI 数据集上的表现远远优于 ChatGPT 和 GPT-4。

(4) 基于结构化数据的生成：Struc-Bench 在结构化生成数据上对 Llama-7B 模型进行微调。微调后的 7B 模型在基准测试中优于 ChatGPT。

(5) 评论生成：Shepherd 基于社区收集的评论数据和 1317 条高质量人工标注数据在 Llama-7B 上进行微调。在以 GPT-4 作为评估器的情况下，Shepherd 在 60% 以上的情况下胜过或与 ChatGPT 持平。在以人类作为评估者的情况下，Shepherd 几乎与 ChatGPT 持平。

5. 朝着值得信赖的人工智能迈进

可靠性是确保 LLM 在实际应用中至关重要。对 LLM 生成幻觉和不安全内容的担忧会降低用户对 LLM 的信任，并带来巨大的潜在风险。

(1) 幻觉：在微调期间，提高数据的正确性和相关性可以较少模型幻觉的生成。Platypus 收集了一个经过内容过滤、以 STEM 领域高质量数据为主的数据集，并基于该数据集在一系列 LLM 上进行微调，最终在 TruthfulQA 上对于 ChatGPT 表现出了实质性改进（约 20%）。现有的在推理阶段减少模型幻觉的技术主要有三类：（1）特定的解码策略 （Chain-of-Verification）、（2）外部知识增强 （Chain-of-Knowledge（CoK），LLM-AUGMENTER，Knowledge Solver，CRITIC，Parametric Knowledge Guiding（PKG）等等）（3）多智能体对话（ $3$ ， $4$ ）。这些推理技术与仅使用 ChatGPT 的普通提示策略相比，可以提高答案准确性。目前，ChatGPT 也推出了检索插件（OpenAI，2023a 年），用于访问外部知识以减少幻觉。

(2) 安全性：根据现有的评估结果，ChatGPT 和 GPT-4 模型在安全性评估方面仍然处于领先地位。这主要归功于人类反馈强化学习（RLHF）。RLHF 需要收集大量昂贵的人类标注，这阻碍了其在开源大模型的使用。目前，通过 AI 反馈来代替人类反馈（RLAIF）和直接偏好优化（DPO）等方法的提出可以大大降低 RLHF 的成本。结合并改进这些方法可以给开源 LLM 的安全性带来潜在的改进。

III. 总结

1. 大模型的发展趋势

自从 GPT-3 问世以来，研究人员已经做了大量的工作来推动 LLM 的发展，其中一个重要的研究方向就是扩大模型的参数量（比如 Gopher，MT-NLG 和 PaLM 等）。虽然这些大模型拥有强大的能力，但闭源的特性也限制了它们的广泛应用，因此也有一些工作开始关注开发开源的大语言模型，比如 OPT 和 BLOOM。与此同时，探索如何预训练更小的模型（如 Chinchilla 和 UL2）和指令调整（如 Flan-T5）也是很重要的研究方向。

一年之前 ChatGPT 的出现极大地改变了 NLP 社区的研究重点。为了赶上 OpenAI，Google 和 Anthropic 分别开发了 Bard 和 Claude。虽然它们在许多任务上能够有和 ChatGPT 相似的性能，但它们与 OpenAI 最新的模型 GPT-4 之间仍然存在一些差距。并且由于这些模型的成功主要来源于人类反馈的强化学习（RLHF），研究人员也探索了各种方法来改进 RLHF。

为了促进开源 LLM 的研究，Meta 发布了 Llama 系列模型。此后，基于 Llama 的开源模型开始井喷式出现。一个有代表性的研究方向是使用指令数据对 Llama 进行微调，包括 Alpaca、Vicuna、Lima 和 WizardLM 等。研究者们还探索了基于 Llama 的智能体、逻辑推理和长上下文建模能力。此外，与基于 Llama 开发 LLM 不同，还有许多工作致力于从零开始训练 LLM，例如 MPT、Falcon、XGen、Phi、Baichuan、Mistral、Grok 和 Yi 等。我们相信，开发更强大、更高效的开源 LLM 将是一个非常有前途的未来方向。

2. 怎么才能制作出更好的开源大模型？

虽然头部模型的详细做法往往是保密的，但以下也有一些社区普遍认可的最佳实践：

（1）数据：预训练涉及使用来自公开可访问来源的数万亿 token。相比之下，微调数据数量较少，但质量更高。使用优质数据进行微调的 LLM 可以获得一定的性能改进，特别是在专业领域。

（2）模型架构：尽管大多数 LLM 使用了仅解码器的 Transformer 架构，但很多模型也使用了不同的技术来优化效果。比如 Llama-2 采用了 Ghost attention 以提高多轮对话控制能力，Mistral 采用滑动窗口注意力来处理更长的上下文长度。

（3）训练：使用指令调整数据进行监督微调（SFT）的过程至关重要。对于生成高质量的结果，数万个 SFT 标注就足够了，正如 Llama-2 使用了 27,540 条标注。这些数据的多样性和质量至关重要。在 RLHF 阶段，近端策略优化（PPO）通常是优选的算法，以更好地使模型行为与人类偏好和指令遵循保持一致，这在增强 LLM 的安全性方面起着关键作用。直接偏好优化（DPO）可以作为 PPO 的替代方法。例如，Zephyr-7B 采用了 DPO，在各种常规基准测试中显示出与 70B-LLM 相当的结果，甚至在 AlpacaEval 上超过了 ChatGPT。

3. 漏洞和潜在问题

（1）预训练期间的数据污染：数据污染问题的根源在于基准数据的收集来源已经包含在预训练语料中。因此，解决 LLM 的预训练语料检测问题，探索现有基准测试和广泛使用的预训练语料之间的重叠，以及评估对基准测试的过度拟合等挑战是至关重要的。这些工作对于提高 LLM 的忠实度和可靠性至关重要。未来需要建立披露预训练语料细节的标准化实践，并开发方法来减轻模型开发生命周期中的数据污染问题。

（2）封闭式对齐开发：在广义偏好数据上应用人类反馈的强化学习（RLHF）已经引起了社区越来越多的关注。然而，只有少数几个开源 LLM 使用 RLHF 进行对齐。主要原因为缺乏高质量、公开可用的偏好数据集和预先训练的奖励模型。我们仍然面临着在复杂推理、编程和安全场景中缺乏多样化、高质量和可扩展偏好数据的挑战。

（3）在基本能力上的持续改进难度：回顾本文提到的基本能力的突破揭示了一些具有挑战性的情况：1. 人们已经投入了大量精力来探索改进预训练期间数据混合的方法，以提高构建更强大基础模型的平衡性和鲁棒性。然而，相关的探索成本往往使得这种方法变得不切实际。2. 超越 ChatGPT 或 GPT-4 的模型主要基于来自闭源模型的知识蒸馏和额外的专家注释。虽然高效，但过度依赖知识蒸馏可能会掩盖关于将所提出的方法扩展到教师模型时效果的潜在问题。此外，LLM 预计将充当智能体并提供合理的解释以支持决策，而为了使 LLM 适用于现实场景，注释智能体任务形式的数据也是昂贵且耗时的。从本质上讲，仅通过知识蒸馏或专家注释的优化不能实现模型的持续改进，并且可能有上限。未来的研究方向可能涉及探索新的方法论，如无监督或自监督学习范式，以实现对 LLM 基础能力的持续改进，同时减轻相关的成本。

IV. 结论

在 ChatGPT 发布一周年之际，本文对高性能的开源 LLM 进行了系统调研。结果表明，有很多开源大模型在特定领域上的表现已经赶上甚至超越了 ChatGPT。此外，我们提供了对开源 LLM 的见解、分析和潜在问题的讨论。我们相信，这份调查为开源 LLM 的有前景的方向提供了启发，并将激励该领域的进一步研究和发展，有助于弥合其与付费闭源模型的差距。

参考文献：

$1$ arxiv.org/abs/2310.03...

_ $2$ arxiv.org/abs/2302.08...

$3$ arxiv.org/abs/2305.13...

$4$ arxiv.org/abs/2305.14...