备注 :回顾看过的论文,对目前看过的Qwen2.5进行整理在此总结(注:笔者水平有限,若有描述不当之处,欢迎大家留言。后期会继续更新LLM系列,文生图系列,VLM系列,agent系列等。如果看完有收获,可以【点赞】【收藏】【加粉】)
阐述的思维逻辑:会给出论文中的核心点和核心点的描述。
一句话总结: Qwen2.5以 18T tokens的高质量数据为基石,以复杂的多阶段 RL 对齐为优化手段,提供丰富的模型大小/配置选择(参数量从 0.5B、1.5B、3B、7B、14B、32B、到旗舰 72B)并实现了在多个评测基准上的顶尖性能。
技术亮点:
1 更大的训练数据规模 :相较于之前版本(例如 Qwen2),Qwen2.5 在预训练阶段将高质量语料规模从约 7 万亿 tokens 扩展到 18 万亿 tokens。这种大数据量为模型提供了更坚实的常识、专业知识与推理基础。
2 后训练 (post-training)-【 SFT + 多阶段 RL】:在预训练之后,Qwen2.5 通过复杂监督微调(SFT) + 多阶段强化学习(包括 offline DPO 和 online GRPO)来提升模型在人类偏好、长文本生成、结构化数据处理、指令遵循等方面的表现。
备注:后续为机器翻译
摘要
在本报告中,我们介绍了Qwen2.5,一个全面的系列大型语言模型(LLM),旨在满足多样化需求。与之前的版本相比,Qwen 2.5在预训练和后训练阶段都有了显著的改进。在预训练方面,我们将之前的7万亿标记数据集扩展到了18万亿标记,这为常识、专家知识和推理能力提供了坚实的基础。在后训练方面,我们实施了复杂的监督微调(SFT),包括超过100万个样本,以及多阶段的强化学习,涵盖离线学习DPO和在线学习GRPO。后训练技术显著增强了人类偏好,特别是在长文本生成、结构化数据分析和指令跟随方面有了显著提升。
为了有效处理多样的使用场景,我们提供了Qwen2.5 LLM系列的多种配置,开放权重的模型包括基础模型和指令调优模型,参数规模从0.5B到72B不等。同时也提供了量化版本的指令调优模型。超过100个模型可从Hugging Face Hub、ModelScope和Kaggle获取。此外,对于托管解决方案,当前有两个混合专家(MoE)变体:Qwen2.5-Turbo和Qwen2.5-Plus,都可以从阿里云Model Studio获取。
Qwen2.5在一系列基准测试中表现出色,评估了语言理解、推理、数学、编程、人类偏好对齐等方面。具体来说,开放权重的旗舰模型Qwen2.5-72B-Instruct在多个开源和专有模型中表现优越,甚至与体积约为其五倍的最先进开放权重模型Llama-3-405B-Instruct相媲美。Qwen2.5-Turbo和Qwen2.5-Plus在性能上分别与GPT-4o-mini和GPT-4o相竞争,且具有优异的成本效益。此外,作为基础,Qwen2.5模型已在训练专门模型(如Qwen2.5-Math、Qwen2.5-Coder、QwQ)和多模态模型方面发挥了重要作用。
图 1:在 Qwen 系列的选代开发过程中,数据规模化发挥了至关重要的作用。Qwen 2.5 利用18 万亿个 token 进行预训练,展现了 Qwen 系列中最先进的能力,尤其是在领域专业知识方面,这凸显了规模化和混合化对于提升模型能力的重要性。
一 介绍
人工智能(AGI)的火花通过大型基础模型的快速发展,尤其是大型语言模型(LLMs)(Brown et al., 2020;OpenAI,2023;2024a;Gemini Team,2024;Anthropic,2023a;b;2024;Bai et al.,2023;Yang et al.,2024a;Touvron et al.,2023a;b;Dubey et al.,2024)变得愈加明显。模型和数据规模的持续进步,加上大规模预训练后跟高质量监督微调(SFT)和强化学习(RLHF)(Ouyang et al., 2022)的范式,使得大型语言模型(LLMs)在语言理解、生成和推理方面出现了突发性能力。基于这一基础,最近在推理时间扩展方面取得的突破,尤其是o1(OpenAI,2024b)展示了通过逐步推理和反思,LLMs在深度思考方面的能力得到了显著增强。这些进展提升了语言模型的潜力,表明它们可能在科学探索中取得重大突破,并继续展现出更多的通用人工智能特性。
除了模型能力的快速发展外,最近两年,LLM社区见证了许多开源大型语言模型的爆发,如Llama系列(Touvron et al., 2023a;b;Dubey et al., 2024)、Mistral系列(Jiang et al., 2023a;2024a)和我们的Qwen系列(Bai et al., 2023;Yang et al., 2024a;Qwen Team,2024a;Hui et al.,2024;Qwen Team,2024c;Yang et al.,2024b)。开源模型使得广大用户和开发者能够访问大型语言模型,促进了更广泛的研究参与、社区协作创新,并加速了AI应用在多个领域的发展。
最近,我们发布了Qwen系列的最新版本------Qwen2.5。在开源部分,我们发布了7种规模的预训练和指令调优模型,包括0.5B、1.5B、3B、7B、14B、32B和72B,同时提供了不同精度的量化版本的指令调优模型。特别是旗舰模型Qwen2.5-72B-Instruct,在多个关键基准测试中表现优异,甚至超越了更大的Llama-3-405B-Instruct模型。此外,我们还发布了Mixture-of-Experts(MoE)模型,包括Qwen2.5-Turbo和Qwen2.5-Plus,这些模型在与GPT-4o-mini和GPT-4o的竞争中表现优秀。
在本技术报告中,我们介绍了Qwen2.5,这是我们持续努力创建更好LLMs的成果。下面,我们展示了Qwen最新版本的关键特点:
-
更好的模型规模:与Qwen2相比,除了0.5B、1.5B、7B和72B模型外,Qwen2.5重新引入了3B、14B和32B模型,这些模型在资源受限的场景下更具成本效益,并且在当前开源基础模型领域中尚未得到充分代表。Qwen2.5-Turbo和Qwen2.5-Plus在精度、延迟和成本之间达到了很好的平衡。
-
更好的数据:预训练和后训练数据都有了显著改进。预训练数据量从7万亿tokens增加到18万亿tokens,重点涵盖了知识、编码和数学领域。预训练采用分阶段的策略,以便在不同混合模式之间过渡。后训练数据包含100万个样本,涵盖了监督微调(SFT,Ouyang et al.,2022)、直接偏好优化(DPO,Rafailov et al.,2023)和群体相对策略优化(GRPO,Shao et al.,2024)等阶段。
-
更好的使用体验:Qwen2在使用中的几个关键限制已被消除,包括更长的生成长度(从2K tokens增加到8K tokens),更好的结构化输入和输出支持(例如表格和JSON),以及更简便的工具使用。此外,Qwen2.5-Turbo支持最多1百万tokens的上下文长度。
二 架构与标记器
Qwen2.5系列基本包括用于开源的密集模型,即Qwen2.5-0.5B / 1.5B / 3B / 7B / 14B / 32B / 72B,以及用于API服务的MoE模型,即Qwen2.5-Turbo和Qwen2.5-Plus。以下是模型架构的详细信息。
对于密集模型,我们保持基于Transformer的解码器架构(Vaswani et al., 2017;Radford et al., 2018),与Qwen2(Yang et al., 2024a)类似。该架构包含几个关键组件:用于高效KV缓存利用的分组查询注意力(GQA,Ainslie et al., 2023)、非线性激活的SwiGLU激活函数(Dauphin et al., 2017)、用于编码位置的旋转位置嵌入**【2】**(RoPE,Su et al., 2024)、注意力机制中的QKV偏置(Su, 2023)以及使用预归一化的RMSNorm(Jiang et al., 2023b)以确保稳定的训练。
表1:Qwen2.5 开放权重模型的模型架构和许可
在此基础上,我们扩展为MoE模型架构。通过将标准的前馈网络(FFN)层替换为专用的MoE层,其中每个层包含多个FFN专家和一个路由机制,将tokens分配给前K个专家。通过Qwen1.5-MoE(Yang et al., 2024a)展示的方法,我们实现了精细粒度的专家分割(Dai et al., 2024)和共享专家路由(Rajbhandari et al., 2022;Dai et al., 2024)。这些架构创新在下游任务中显著提高了模型的表现。
对于标记化,我们使用Qwen的标记器(Bai et al., 2023),它实现了字节对编码(BBPE,Brown et al., 2020;Wang et al., 2020;Sennrich et al., 2016),并拥有151,643个常规tokens的词汇表。与之前的Qwen版本相比,我们将控制标记集从3个扩展到22个,新增了两个工具功能标记,并为模型的其他能力分配了剩余的标记集。这一扩展在所有Qwen2.5模型中建立了统一的词汇表,增强了一致性并减少了潜在的兼容性问题。
三 预训练
我们的语言模型预训练过程包含几个关键组成部分。首先,我们通过精密的过滤和评分机制精心挑选高质量的训练数据,并结合战略性的数据混合。其次,我们对超参数优化进行了广泛研究,以有效地训练不同规模的模型。最后,我们融入了专门的长上下文预训练,以增强模型处理和理解扩展序列的能力。以下是我们在数据准备、超参数选择和长上下文训练方面的具体做法。
3.1 预训练数据
与其前身Qwen2相比,Qwen2.5在预训练数据质量方面表现出了显著的提升。这些改进来源于几个关键方面:
-
更好的数据过滤:高质量的预训练数据对模型的表现至关重要,因此数据质量评估和过滤是我们工作流程中的关键部分。我们利用Qwen2-Instruct模型作为数据质量过滤器,进行全面的多维度分析,评估和打分训练样本。与Qwen2使用的过滤方法相比,这一方法在Qwen2的多语言语料库扩展的基础上得到了增强,使得质量评估更加细致,确保了高质量训练数据的更好保留,同时更加有效地过滤低质量样本。
-
更好的数学与编码数据:在Qwen2.5的预训练阶段,我们整合了来自Qwen2.5-Math(Yang et al., 2024b)和Qwen2.5-Coder(Hui et al., 2024)的训练数据。这一数据整合策略证明是非常有效的,因为这些专门的数据集对于数学和编码任务的出色表现起到了关键作用。通过在预训练阶段利用这些高质量的领域特定数据集,Qwen2.5在数学推理和代码生成方面继承了强大的能力。
-
更好的合成数据:为了生成高质量的合成数据,尤其是在数学、编码和知识领域,我们利用Qwen2-72B-Instruct(Yang et al., 2024a)和Qwen2-Math-72B-Instruct(Qwen Team, 2024c)进行数据合成。这些合成数据的质量通过我们的专有通用奖励模型和专门的Qwen2-Math-RM-72B模型得到了进一步增强。
-
更好的数据混合:为了优化预训练数据的分布,我们使用Qwen2-Instruct模型对内容进行分类和平衡,覆盖不同的领域。我们的分析显示,电子商务、社交媒体和娱乐领域在网页数据中占比过高,通常包含大量重复的模板化或机器生成内容。相反,像技术、科学和学术研究等领域尽管包含更高质量的信息,但传统上代表性较少。通过对过度代表的领域进行下采样,并对高价值领域进行上采样,我们确保了一个更加平衡且信息丰富的训练数据集,更好地服务于模型的学习目标。
在这些技术的基础上,我们开发了一个更大且质量更高的预训练数据集,从Qwen2使用的7万亿tokens扩展到18万亿tokens。
3.2 超参数扩展法则
我们基于Qwen2.5的预训练数据开发了超参数的扩展法则(Hoffmann et al., 2022;Kaplan et al., 2020)。虽然先前的研究(Dubey et al., 2024;Almazrouei et al., 2023;Hoffmann et al., 2022)主要使用扩展法则来根据计算预算确定最佳模型规模,但我们利用它们来识别不同模型架构下的最佳超参数。具体而言,我们的扩展法则有助于确定关键的训练参数,如批量大小 BBB 和学习率 μ\muμ,适用于不同规模的密集模型和MoE模型。
通过广泛的实验,我们系统地研究了模型架构与最佳训练超参数之间的关系。特别是,我们分析了随着模型规模 NNN 和预训练数据规模 DDD 的变化,最佳学习率 μopt\mu_{opt}μopt 和批量大小 BoptB_{opt}Bopt 如何变化。我们的实验涵盖了从44M到14B参数的密集模型,以及从44M到1B激活参数的MoE模型,训练数据集范围从0.8B到600B tokens。
通过这些最佳超参数预测,我们将最终损失模型化为模型架构和训练数据规模的函数。此外,我们还利用扩展法则来预测和比较不同参数数量的MoE模型与其密集模型的表现。这一分析为MoE模型的超参数配置提供了指导,使我们能够通过精确调节激活和总参数,达到与特定密集模型(如Qwen2.5-72B和Qwen2.5-14B)相当的表现。
3.3 长上下文预训练
为了实现最佳的训练效率,Qwen2.5采用了两阶段的预训练策略:首先是4,096-token上下文长度的初始阶段,随后是扩展序列的阶段。沿用Qwen2的策略,在最终的预训练阶段,我们将上下文长度从4,096扩展到32,768个tokens,适用于所有模型变体,除了Qwen2.5-Turbo。与此同时,我们使用ABF技术(Xiong et al., 2023)将RoPE的基频从10,000提高到1,000,000。
对于Qwen2.5-Turbo,我们在训练期间实施了逐步扩展上下文长度的策略,通过四个阶段进行:32,768 tokens、65,536 tokens、131,072 tokens,最终达到262,144 tokens,RoPE基频为10,000,000。在每个阶段,我们精心筛选训练数据,确保当前最大长度的序列占比40%,其余为较短序列。这一逐步训练方法确保了模型能够顺利适应逐渐增加的上下文长度,同时保持处理和推广不同长度序列的能力。
为了在推理过程中增强我们模型处理长序列的能力,我们实施了两项关键策略:YARN(Peng et al., 2023)和双块注意力(DCA,An et al., 2024)。通过这些创新,我们实现了序列长度能力的四倍提升,使Qwen2.5-Turbo能够处理最多1百万个tokens,其他模型可以处理最多131,072个tokens。值得注意的是,这些方法不仅通过减少困惑度提高了长序列的建模能力,同时也保持了模型在短序列上的强大表现,确保了在不同输入长度下的一致质量。
四 后训练
Qwen2.5在其后训练设计中引入了两项重要的改进,相比Qwen2有了显著提升:
(1)扩展的监督微调数据覆盖面:监督微调过程利用了包含数百万高质量示例的庞大数据集。这一扩展特别解决了前一版本模型在某些领域的局限性,如长序列生成、数学问题解决、编码、指令跟随、结构化数据理解、逻辑推理、跨语言转移以及强大的系统指令。
(2)两阶段强化学习:Qwen2.5的强化学习(RL)过程分为两个不同的阶段:离线RL和在线RL。
离线RL:此阶段专注于发展奖励模型难以评估的能力,如推理、事实性和指令跟随。通过精心构建和验证训练数据,我们确保离线RL信号既可学习又可靠(Xiang et al., 2024),使得模型能够有效地掌握这些复杂技能。
在线RL: 在线RL阶段利用奖励模型在输出质量上的细微差异检测能力,包括真实性、帮助性、简洁性、相关性、安全性和去偏。它使得模型能够生成准确、连贯、结构良好的响应,同时保持安全性和可读性。因此,模型的输出始终符合人类质量标准和期望。
4.1 监督微调
在这一部分,我们详细介绍了Qwen2.5在监督微调(SFT)阶段的关键改进,重点关注几个重要领域:
-
长序列生成:Qwen2.5能够生成高质量的内容,输出上下文长度达到8,192 tokens,相较于典型的后训练响应长度(通常保持在2,000 tokens以下)是一个显著的进步。为了弥补这一差距,我们开发了长响应数据集(Quan et al., 2024)。我们使用回译技术从预训练语料库生成长文本数据的查询,施加输出长度限制,并利用Qwen2过滤掉低质量的配对数据。
-
数学:我们引入了Qwen2.5-Math(Yang et al., 2024b)的链式思维数据,涵盖了各种查询来源,包括公共数据集、K-12问题集合和合成问题。为了确保高质量的推理,我们使用拒绝采样(Yuan et al., 2023)结合奖励建模和标注答案的指导,生成逐步的推理过程。
-
编码:为了增强编码能力,我们整合了Qwen2.5-Coder(Hui et al., 2024)的指令调优数据。我们将多个语言特定的代理整合到一个协作框架中,生成多种高质量的指令对,涵盖近40种编程语言。我们通过从与代码相关的Q&A网站合成新示例,并从GitHub收集算法代码片段,扩展了我们的指令数据集。我们使用一个综合的多语言沙箱执行静态代码检查,并通过自动化单元测试验证代码片段,确保代码的质量和正确性(Dou et al., 2024;Yang et al., 2024c)。
-
指令跟随:为了确保高质量的指令跟随数据,我们实现了一个严格的基于代码的验证框架。在这种方法中,LLM生成指令及相应的验证代码,并提供全面的单元测试进行交叉验证。通过执行反馈的拒绝采样,我们仔细筛选用于监督微调的训练数据,从而保证模型严格遵循预期的指令(Dong et al., 2024)。
-
结构化数据理解:我们开发了一个全面的结构化理解数据集,涵盖了传统任务,如表格问答、事实验证、错误修正和结构理解,以及涉及结构化和半结构化数据的复杂任务。通过将推理链整合到模型的响应中,我们显著增强了模型从结构化数据中推断信息的能力,从而提高了其在这些多样化任务中的表现。这种方法不仅拓宽了数据集的范围,而且加深了模型在复杂数据结构中的推理和洞察能力。
-
逻辑推理:为了增强模型的逻辑推理能力,我们引入了一套涵盖多个领域的70,000个新查询。这些查询包括多项选择题、是非题和开放式问题。模型被训练以系统地处理问题,采用多种推理方法,如演绎推理、归纳概括、类比推理、因果推理和统计推理。通过迭代改进,我们系统地过滤掉包含错误答案或推理过程存在缺陷的数据。这个过程逐步加强了模型的逻辑推理能力,确保其在不同类型的推理任务中的强大表现。
-
跨语言转移:为了促进模型在不同语言之间的通用能力转移,我们使用翻译模型将高资源语言中的指令转换为各种低资源语言,从而生成相应的响应候选。为了确保这些响应的准确性和一致性,我们评估了每个多语言响应与原始响应之间的语义对齐度。此过程保持了原始响应的逻辑结构和风格细微差异,从而在不同语言之间保持其完整性和一致性。
-
强健的系统指令:我们构建了数百个通用系统提示,以提高后训练中的系统提示多样性,确保系统提示和对话之间的一致性。通过与不同系统提示的评估,我们发现模型保持了良好的表现(Lu et al., 2024b)并减少了方差,表明其鲁棒性得到了提升。
-
响应过滤:为了评估响应质量,我们采用了多种自动注释方法,包括专门的批评模型和多代理协作评分系统。所有响应都会经过严格的评估,只有那些通过所有评分系统的响应才会被保留。这一全面的方法确保了我们的输出保持最高的质量标准。
最终,我们构建了一个包含超过100万个SFT示例的数据集。模型经过两轮微调,序列长度为32,768 tokens。为了优化学习,学习率从7×10−6 逐渐下降到7×10−7。为了应对过拟合,我们应用了0.1的权重衰减,并将梯度范数限制为最大值1.0。
4.2 离线强化学习
与在线强化学习(RL)相比,离线RL使得训练信号的预先准备成为可能,这在某些任务中尤为重要,尤其是那些存在标准答案但通过奖励模型难以评估的任务。在本研究中,我们将重点关注数学、编码、指令跟随和逻辑推理等客观查询领域,在这些领域中,获得准确的评估可能是复杂的。
在前一阶段,我们广泛采用了执行反馈和答案匹配等策略,确保响应的质量。对于当前阶段,我们将使用SFT模型重新采样响应,以应对新的查询集。通过质量检查合格的响应将作为正例,而未通过检查的响应则作为负例进行直接偏好优化(DPO)训练(Rafailov et al., 2023)。为了进一步提高训练信号的可靠性和准确性,我们结合了人工和自动化审查过程(Cao et al., 2024)。这种双重方法确保了训练数据不仅可学习,而且与人类预期一致。最终,我们构建了一个包含约150,000个训练对的数据集。然后,模型使用在线合并优化器(Lu et al., 2024a)训练一轮,学习率为 7×10−7。
4.3 在线强化学习
为了开发强大的奖励模型用于在线RL,我们遵循了一套精心定义的标签标准。这些标准确保模型生成的响应不仅高质量,而且与伦理和以用户为中心的标准一致(Wang et al., 2024a)。数据标签的具体准则如下:
-
真实性:响应必须基于事实准确性,忠实反映所提供的上下文和指令。模型应避免生成虚假或不支持给定数据的信息。
-
帮助性:模型的输出应该真正有用,能够有效地解决用户查询,同时提供积极、富有吸引力、教育性和相关的内容。它应准确跟随给定指令,并为用户提供价值。
-
简洁性:响应应简洁明了,避免不必要的冗长。目标是清晰高效地传达信息,而不让用户被过多的细节所压倒。
-
相关性:响应的所有部分应直接与用户查询、对话历史和助手的上下文相关。模型应根据用户需求和期望定制输出。
-
无害性:模型必须优先考虑用户安全,避免生成可能导致非法、不道德或有害行为的内容。它应始终促进道德行为和负责任的沟通。
-
去偏:模型应生成无偏的响应,包括但不限于性别、种族、国籍和政治偏见。它应平等对待所有话题,遵守广泛接受的道德和伦理标准。
用于训练奖励模型的查询来自两个不同的数据集:公开可用的开源数据和一个复杂度更高的专有查询集。通过从Qwen模型的检查点生成响应,这些模型在不同的训练阶段使用了不同的微调方法------SFT、DPO和RL------进行训练。为了引入多样性,这些响应以不同的温度设置进行采样。通过人工和自动化标签过程生成偏好对,这些训练数据也整合到DPO数据集中。
在我们的在线强化学习(RL)框架中,我们采用了群体相对策略优化(GRPO,Shao et al., 2024)。用于训练奖励模型的查询集与RL训练阶段使用的查询集相同。查询在训练期间的处理顺序由奖励模型评估的响应得分的方差决定。具体而言,具有较高响应得分方差的查询优先处理,以确保更有效的学习。我们为每个查询采样8个响应。所有模型以2048的全局批量大小和每次训练2048个样本进行训练,考虑到每一对查询和响应作为一个样本。
4.4 长上下文微调
为了进一步扩展Qwen2.5-Turbo的上下文长度,我们在后训练过程中引入了更长的SFT示例,使其更好地与长查询中的人类偏好对齐。
在SFT阶段,我们采用了两阶段的方法。在第一阶段,模型仅使用每个最多32,768个tokens的短指令进行微调。此阶段使用与其他Qwen2.5模型相同的数据和训练步骤,确保在短任务中的强大表现。在第二阶段,微调过程结合了短指令(最多32,768个tokens)和长指令(最多262,144个tokens)。这种混合方法有效地增强了模型在长上下文任务中的指令跟随能力,同时保持了其在短任务中的表现。
在RL阶段,我们采用与其他Qwen2.5模型相似的训练策略,仅专注于短指令。做出这一设计选择的主要考虑因素有两个:首先,RL训练对长上下文任务的计算开销较大;其次,目前尚缺乏能够为长上下文任务提供适当奖励信号的奖励模型。此外,我们发现仅在短指令上采用RL仍能显著提高模型在人类偏好上的对齐,尤其是在长上下文任务中。
五 评估
通过预训练生成的基础模型和通过后训练生成的指令调优模型将根据综合评估套件进行评估。该评估套件包括常用的开源基准测试和技能导向的内部数据集。评估套件的设计主要是自动化的,最小化人工干预。
为了防止测试数据泄漏,我们在构建预训练和后训练数据集时,使用n-gram匹配排除了可能受到污染的数据。与Qwen2使用的标准相同,如果存在测试序列 se,使得token化后的训练序列 st 和 se之间的最长公共子序列(LCS)的长度满足 ∣LCS(st,se)∣≥13且 ∣LCS(st,se)∣≥0.6×min(∣st∣,∣se∣),则将训练序列 ststst 从训练数据中移除。
5.1 基础模型
我们对Qwen2.5系列的基础语言模型进行了全面评估。基础模型的评估主要强调它们在自然语言理解、一般问答、编码、数学、科学知识、推理和多语言能力等方面的表现。评估数据集包括:
一般任务:MMLU (Hendrycks et al., 2021a) (5-shot)、MMLU-Pro (Wang et al., 2024b) (5-shot)、MMLU-redux (Gema et al., 2024) (5-shot)、BBH (Suzgun et al., 2023) (3-shot)、ARC-C (Clark et al., 2018) (25-shot)、TruthfulQA (Lin et al., 2022a) (0-shot)、Winogrande (Sakaguchi et al., 2021) (5-shot)、HellaSwag (Zellers et al., 2019) (10-shot)。
表 2:70B+基础型号和 Qwen2.5-Plus 的性能
数学与科学任务:GPQA(Rein et al., 2023)(5-shot),TheoremQA(Chen et al., 2023a)(5-shot),GSM8K(Cobbe et al., 2021)(4-shot),MATH(Hendrycks et al., 2021b)(4-shot)
编码任务:HumanEval(Chen et al., 2021)(0-shot),HumanEval+(Liu et al., 2023)(0-shot),MBPP(Austin et al., 2021)(0-shot),MBPP+(Liu et al., 2023)(0-shot),MultiPL-E(Cassano et al., 2023)(0-shot)
多语言任务:我们将其分为四个类别:(a) 考试:M3Exam(5-shot,选择没有图片的样本)、IndoMMLU(Koto et al., 2023)(3-shot)、ruMMLU(Fenogenova et al., 2024)(5-shot),翻译版MMLU(Chen et al., 2023b)(5-shot,涵盖阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、日语和韩语);(b) 理解:BELEBELE(Bandarkar et al., 2023)(5-shot)、XCOPA(Ponti et al., 2020)(5-shot)、XWinograd(Muennighoff et al., 2023)(5-shot)、XStoryCloze(Lin et al., 2022b)(0-shot)和PAWS-X(Yang et al., 2019)(5-shot);(c) 数学:MGSM(Goyal et al., 2022)(8-shot CoT);(d) 翻译:Flores-101(Goyal et al., 2022)(5-shot)。
我们比较了Qwen2.5模型与Qwen2模型以及其他领先的开源模型在参数规模方面的表现。
Qwen2.5-72B & Qwen2.5-Plus。我们将Qwen2.5-72B与其他领先的开源模型进行了比较,包括Llama3-70B(Dubey et al., 2024)、Llama3-405B(Dubey et al., 2024)、Mixtrail-8x22B(Jiang et al., 2024a)和我们之前的Qwen2-72B(Yang et al., 2024a)。Qwen2.5-72B在广泛的任务中显著超过了同类的其他模型,其结果可与Llama-3-405B相媲美,同时仅使用了其五分之一的参数。此外,与前代模型Qwen2-72B相比,Qwen2.5-72B在几乎所有基准测试中表现出色,特别是在一般任务、数学和编码挑战中表现突出。由于训练和推理成本显著降低,Qwen2.5-Plus在性能上与Qwen2.5-72B和Llama3-405B相媲美,在Hellaswag、TheoremQA、MATH、GSM8K、MultiPL-E、Multi-Mathematics和Multi-Translation等任务中超越了其他基线模型。Qwen2.5-Plus在MMLU-Pro中得分64.0,比Qwen2.5-72B高出5.9分。
Qwen2.5-14B/32B & Qwen2.5-Turbo。Qwen2.5-Turbo、Qwen2.5-14B 和 Qwen2.5-32B 模型的评估结果与相似规模的基线模型进行对比。这些基线模型包括 Yi-1.5-34B(Young et al., 2024)、Gemma2-27B(Gemma Team et al., 2024)和 Qwen1.5-32B(Qwen Team, 2024b)。结果如表3所示。Qwen2.5-14B 模型在各项任务中表现稳定,尤其在一般任务如 MMLU 和 BBH 中表现突出,分别获得了 79.7 和 78.2 的分数,超越了更大规模的竞争对手。同时,Qwen2.5-32B,尤其在特定任务中展现出卓越的能力,通常超过了同规模更大的模型。值得注意的是,Qwen2.5-32B 相较于其前身 Qwen1.5-32B 显著提升,尤其在数学和编程任务中,取得了 MATH 任务的 57.7 和 MBPP 任务的 84.5 分数。对于 Qwen2.5-Turbo,尽管其训练成本和推理成本显著低于 Qwen2.5-14B,但在任务表现上与 Qwen2.5-14B 不相上下,甚至在 MMLU-Pro 基准测试中,其得分超过了 Qwen2.5-32B。
表3:14B-30B+基本型和Qwen2.5-Turbo的性能
Qwen2.5-7B.对于 7B 级模型,我们主要将 Qwen2.5-7B 与其他领先的 7B+ 模型进行比较,包括 Mistral-7B(Jiang et al., 2023a)、Llama3-8B(Dubey et al., 2024)、Gemma2-9B(Gemma Team et al., 2024)以及我们的前身 Qwen2-7B(Yang et al., 2024a)。结果可以在表4中找到。需要注意的是,Qwen2-7B 和 Qwen2.5-7B 的非嵌入参数只有 6.5B,而 Gemma2-9B 的非嵌入参数为 8.2B。 Qwen2.5-7B 模型在多个基准测试中超越了其前身和同类模型,尽管其非嵌入参数较少。它在多个任务中表现出显著的提升,取得了 MMLU(Hendrycks et al., 2021a)等一般基准的 74.2 分,MATH(Hendrycks et al., 2021b)等数学挑战的 49.8 分,以及 HumanEval(Chen et al., 2021)等编程任务的 57.9 分。
表 4:7B+ 基础型号的性能
**Qwen2.5-0.5B/1.5B/3B。**对于边缘端模型,我们将 Qwen2.5-0.5B、1.5B 和 3B 与已建立的基线模型进行比较:Qwen2-0.5B/1.5B(Yang et al., 2024a)和 Gemma2-2.6B(Gemma Team et al., 2024)。结果如表5所示。Qwen2.5-0.5B、1.5B 和 3B 在几乎所有基准测试中都保持了强劲的表现。特别是 Qwen2.5-0.5B 模型在多个数学和编程任务中超越了 Gemma2-2.6B。
表 5:较小基础模型的性能
5.2 指令调优模型
为了批判性地评估指令调优模型,我们采用了多方面的方法。基础技能和人类偏好通过开源数据集和基准进行评估。此外,我们还通过详细的内部评估深入探讨了模型在关键领域的能力和多语言能力。特别关注评估长上下文能力。以下章节概述了评估方法并展示了结果。
5.2.1 开放基准评估
为了全面评估指令调优模型的质量,我们结合了自动评估和人工评估,评估模型的能力和人类偏好。为了评估基础能力,我们使用与预训练模型评估中类似的数据集,目标是评估自然语言理解、编码、数学和推理能力。具体来说,我们使用MMLU-Pro、MMLU-redux和LiveBench 0831(White et al., 2024)进行一般评估,GPQA、GSM8K和MATH进行科学与数学评估,HumanEval、MBPP、MultiPL-E和LiveCodeBench 2305-2409(Jain et al., 2024)进行编码评估,IFEval(Zhou et al., 2023)进行指令跟随评估。此外,我们还评估了人类偏好对齐和指令跟随能力,通过使用MT-Bench(Zheng et al., 2023)和Arena-Hard(Li et al., 2024)等基准进行评估。
Qwen2.5-72B-Instruct & Qwen2.5-Plus。 如表6所示,我们将Qwen2.5-72B-Instruct和Qwen2.5-Plus与其他领先的开源指令调优模型进行了比较,包括Llama3.1-70B-Instruct(Dubey et al., 2024)、Llama3.1-405B-Instruct(Dubey et al., 2024)以及我们之前的72B版本Qwen2-72B-Instruct(Yang et al., 2024a)。Qwen2.5-72B-Instruct模型在多个关键基准测试中表现出色,甚至超越了更大的Llama-3.1-405B-Instruct模型,特别是在MMLU-redux、MATH、MBPP、MultiPL-E、LiveCodeBench、Arena-Hard和MTBench等测试中。此外,Qwen2.5-Plus在13个基准中的9个上超过了Qwen2.5-72B-Instruct。
表 6:70B+Instruct 模型和 Qwen2.5-Plus 的性能
Qwen2.5-14B/32B-Instruct & Qwen2.5-Turbo。 对Qwen2.5-Turbo、Qwen2.5-14B-Instruct和Qwen2.5-32B-Instruct模型的评估,并与类似规模的基线模型进行比较。基线模型包括GPT4o-mini、Gemma2-27B-IT(Gemma Team et al., 2024)和Qwen2-57BA14B-Instruct(Yang et al., 2024a)。结果总结在表7中。Qwen2.5-32B-Instruct模型在大多数任务中表现优越,超越了类似规模的其他模型。特别是我们的开源Qwen2.5-14B-Instruct模型在所有基准测试中表现出色,甚至与GPT-4o-mini相抗衡。尽管训练和推理成本显著较低,Qwen2.5-Turbo模型在八项基准测试中超过了Qwen2.5-14B-Instruct。这证明Qwen2.5-Turbo在效率和效果方面都表现出色,是资源受限环境中的理想选择。
表7:14B-30B+指令调优模型和 Qwen2.5-Turbo的性能
其他指令调优模型。如表8所示,Qwen2.5-7B-Instruct 模型在除 IFEval 外的所有任务中显著超过其竞争对手 Gemma2-9B-IT 和 Llama3.1-8B-Instruct。值得注意的是,Qwen2.5-7B-Instruct 在数学(MATH: 75.5)和编程(HumanEval: 84.8)任务中展现出明显优势。对于边缘端指令调优模型,尽管 Qwen2.5-3B-Instruct 模型的参数少于 Phi3.5-mini-instruct(Abdin et al., 2024)和 MiniCPM3-4B-Instruct(Hu et al., 2024)模型,但在数学和编程任务中超越了它们,如表9所示。此外,它在语言理解方面也表现出竞争力的结果。Qwen2.5-1.5B-Instruct 和 Qwen2.5-0.5B-Instruct 模型相比于其前代版本也有了显著的性能提升,具体详情见表10。这些提升使得它们特别适合在资源极为受限的环境中进行边缘端应用。
表 8:7B+指令调优模型的性能
表 9:2B-4B 指令调优模型的性能比较
表 10:0.5B-1.5B 指令调优模型的性能比较
5.2.2 内部自动评估
尽管已经有几个开放基准数据集可供评估,但我们认为这些基准数据集不足以全面捕捉LLMs的能力。为了解决这个问题,我们开发了一系列内部数据集,用于评估模型在各个方面的表现,包括知识理解、文本生成、编码等。这些评估分别在中文和英文中进行。此外,我们还特别评估了指令调优模型的多语言能力。结果总结在表11(英文评估)、表12(中文评估)、表13(70B+指令调优模型的多语言评估)和表14(7B-14B模型的评估)中。
表11:在我们内部英语自动评估基准测试中的性能比较
表 12:在我们内部开发的中文自动评估基准测试程序上的性能比较
表13:70B+Instruct 模型在多语言任务上的表现
表14:7B-14B Instruct模型在多语言任务上的表现
英文与中文评估。我们比较了Qwen2.5-Instruct模型与多个领先语言模型的表现,包括GPT-4、Claude3.5-sonnet、Qwen2和Llama-3.1,在英文和中文语言上的表现。我们的分析重点关注模型规模及其对性能的影响,以及我们最新的Qwen2.5系列与之前版本及竞争模型的比较。对于较小的模型,我们观察到Qwen2.5-0.5B模型在多个基准上与Qwen2-1.5B模型的表现相当,甚至超越了它。这表明Qwen2.5系列优化了参数使用,使得中等规模的模型能够达到与上一代较大模型相同的表现。Qwen2.5-3B模型的表现与Qwen2-7B模型相当。值得注意的是,Qwen2.5-32B模型在多个任务上表现出显著改进,超越了Qwen2-72B模型。我们的旗舰模型Qwen2.5-72B进一步缩小了Qwen与最新一代模型如GPT-4和Claude3.5-sonnet之间的差距。特别是Qwen2.5-72B在所有指标上与Llama-3.1-405B相匹配或超越了它,展示了Qwen2.5-72B在广泛语言处理任务中的竞争力,同时也为未来的改进明确了方向。Qwen2.5-Plus解决了之前在中文指令跟随上的不足,并进一步提升了在其他领域的优势。
多语言评估 。为了全面评估指令调优模型的多语言能力,我们遵循P-MMEval(Zhang et al., 2024)的标准,并扩展了几个基准,具体如下:(1)IFEval(多语言) :我们将原本在英文中的IFEval基准扩展,包含了多语言的示例。为了确保语言中立性,我们去除了包含特定语言内容的实例(例如"以字母A开头")。(2)知识利用 :为了评估Qwen2.5系列模型在多语言中的知识利用能力,我们使用了五个类似MMLU的基准(多项选择格式)。这些基准包括:AMMLU(阿拉伯语)、JMMLU(日语)、KMMLU(韩语)、IndoMMLU(印尼语)和TurkishMMLU(土耳其语)。此外,我们还评估了模型在翻译版MMLU基准(okapi MMLU)上的表现。(3)MGSM8K(扩展版) :在原有 MGSM8K 基准的基础上,我们扩展了语言支持,包括阿拉伯语(ar)、韩语(ko)、葡萄牙语(pt)和越南语(vi)。(4)文化细微差异:为了评估模型捕捉文化细微差异的能力,我们使用了 BLEnD 基准(Myung et al., 2024)。该基准专门设计用于测试大语言模型(LLMs)对文化细微差异的理解。
Qwen2.5 在指令跟随、多语言知识和数学推理方面表现出色,与同类规模的模型相当。尽管相较于前身 Qwen2,在捕捉文化细微差异方面有了显著改进,但在这一领域仍有进一步提升的潜力。
5.2.3 奖励模型
奖励模型作为引导强化学习(RL)过程的基石,因此我们对 Qwen2.5 系列中使用的奖励模型进行了单独评估。我们的评估基准包括 Reward Bench(Lambert et al., 2024)、RMB(Zhou et al., 2024)、PPE(Frick et al., 2024b),以及我们内部收集的域外中文人类偏好基准(Human-Preference-Chinese),以提供全面的分析。为了进行比较,我们还包括了基线模型,如 Nemotron-4-340B-Reward(Adler et al., 2024)、Llama-3.1-Nemotron-70B-Reward(Wang et al., 2024c)和 Athene-RM70B(Frick et al., 2024a)。结果如表15所示。
表15:多个RM基准的性能比较
总体而言,我们的研究发现,Llama-3.1-Nemotron-70B-Reward 在 Reward Bench 上表现突出,而 Athene-RM-70B 在 RMB 基准上表现最佳。Qwen2.5-RM-72B 在 PPE 和 Human-Preference-Chinese 评估中领先,仅在 RMB 上排名第二,紧随 Athene-RM-70B 之后,并在 Reward Bench 上表现与 Nemotron-4-340B-Reward 相当,虽然略逊色于 Llama-3.1-Nemotron-70B-Reward。
由于缺乏针对奖励模型的评估方法,目前的奖励模型通常使用 Reward Bench 进行评估。然而,我们在多个 RM 基准中的评估结果表明,针对特定基准的过度优化可能会触发 Goodhart 定律(Hoskin, 1996),导致其他基准上的表现下降,并可能影响下游对齐性能。这突显了需要对奖励模型进行跨多个基准的全面评估,而不是仅依赖单一基准。
更重要的是,通过反复实验,我们还认识到一个关键限制:当前的奖励模型评估基准并不能准确预测在其指导下训练的 RL 模型的表现。换句话说,在 RM 基准上获得更高的分数并不一定与最终 RL 模型的优越性能相关联。这一见解强调了需要进一步研究更加具备预测性的奖励模型评估方法。
5.2.4 长上下文能力
我们使用三个基准来评估 Qwen2.5 模型的长上下文能力:RULER(Hsieh et al., 2024)、LV-Eval(Yuan et al., 2024)和 Longbench-Chat(Bai et al., 2024)。在 LV-Eval 中,我们采用关键字回收作为报告分数,以减轻原始指标中存在的高假阴性率。
结果如表16和表17所示。我们可以观察到,Qwen2.5 模型在配备了长度外推技术(即 DCA + YARN)后,在这三个数据集上展示了强大的长上下文处理能力。其中,Qwen2.5-72B-Instruct 在所有上下文长度下表现最强,显著超越了现有的开源长上下文模型以及专有模型,如 GPT-4o-mini 和 GPT-4。
表 16:Qwen2.5 模型在 RULER 数据集上的性能,YARN+DCA 在 32K个 token 内并未改变模型的行为。
表 17:Qwen2.5 模型在 LV-Eval 和 LongBench-Chat 数据集上的性能。YARN+DCA在32k个token 内并未改变模型的行为。
此外,如图2所示,Qwen2.5-Turbo 在 1M-token 密钥检索任务中达到了 100% 的准确率,展示了其从超长上下文中捕获详细信息的卓越能力。我们基于 Minference(Jiang et al., 2024b)开发了稀疏注意力机制,显著提高了推理速度,这对于处理长上下文时提升用户体验至关重要。对于 1M tokens 的序列,这种方法将注意力机制的计算负载降低了 12.5 倍。图3展示了 Qwen2.5-Turbo 在各种硬件配置下的首次令牌时间(TTFT),我们的方法实现了 3.2 到 4.3 倍的加速。
图 2:Qwen2.5-Turbo 在 100 万个令牌长度的密钥检索任务中的性能
图 3:Qwen2.5-Turbo 和 Qwen2.5-7B 在完全注意力机制和我们的方法下的 TTFT(首次标记到达时间)
六 结论
Qwen2.5 在大型语言模型(LLMs)领域中实现了显著突破,其预训练规模扩展至 18 万亿 tokens,并引入了更为先进的后训练技术,包括 监督微调 和 多阶段强化学习。这些改进大幅提升了模型在人类偏好对齐、长文本生成以及结构化数据分析方面的能力,使 Qwen2.5 在指令跟随任务中表现尤为出色。Qwen2.5 提供多种规模配置 ,从 0.5B 到 72B 参数的开源权重模型,到专有的 MoE(专家混合)模型------例如高性价比的 Qwen2.5-Turbo 和 Qwen2.5-Plus,以满足不同资源条件和应用场景的需求。实证评估表明 ,Qwen2.5-72B-Instruct 的表现可与最先进的 Llama-3-405B-Instruct 相匹敌,尽管其参数量仅为后者的六分之一。此外,Qwen2.5 也是一系列专业模型的基础,展示出强大的适配性和在特定领域应用中的扩展能力。我们相信,Qwen2.5 凭借其 卓越性能、灵活架构以及广泛可用性,将成为学术研究与工业应用的重要资源,并将在未来创新技术的发展中发挥关键作用。
未来,我们将专注于推进稳健的基础模型。首先,我们将通过整合更广泛、更多样化、更高质量的数据迭代地改进基础大型语言模型和指令调整后的大型语言模型(LLM)。其次,我们还将继续开发多模态型。我们的目标是将各种模态整合到一个统一的框架中。这将有助于实现跨文本、视觉和听觉领域的无缝端到端信息处理。第三,我们致力于提升模型的推理能力。这将通过战略性地扩展推理计算资源来实现。这些努力旨在突破当前技术限制,并为更广泛的人工智能领域做出贡献。
参考文献
1 Qwen2.5 : https://arxiv.org/pdf/2412.15115
2 大模型位置编码:https://blog.csdn.net/qq_29296685/article/details/153988822?spm=1001.2014.3001.5501