一、模型概览:丰富的模型家族
Qwen3 系列包含了 2 款混合专家(MoE)模型与 6 款密集(Dense)模型,参数量覆盖范围极广,从 0.6B 一直延伸至 235B 。其中,旗舰模型 Qwen3 - 235B - A22B 总参数量高达 2350 亿,不过其激活参数仅 220 亿,借助 MoE 架构实现了 "动态资源分配",这是一个极为关键的特性,在后文性能表现部分会详细阐述它如何发挥作用。而小型 MoE 模型 Qwen3 - 30B - A3B 总参数约 300 亿,激活参数 30 亿 。6 款 Dense 模型则分别为 Qwen3 - 0.6B、1.7B、4B、8B、14B、32B,不同的参数量可以满足多样化的应用场景和部署需求。
二、核心特性:混合推理模式引领新方向
创新的双模式设计
Qwen3 作为国内首个支持 "思考模式" 与 "非思考模式" 的混合推理模型,在模型响应策略上实现了重大突破。在思考模式下,模型面对复杂逻辑、数学推理等任务时,会启动多步骤深度推理,就像一位深思熟虑的学者,逐步剖析问题,最终输出严谨的结果。例如在解决复杂的数学证明题或者逻辑推理谜题时,思考模式能够让模型有条不紊地梳理思路,找到问题的关键所在。而非思考模式则如同敏捷的短跑选手,对于简单任务能够迅速做出低算力 "秒级响应" 。比如回答常见的事实性问题,像 "今天天气如何""中国的首都是哪里" 等,非思考模式能快速给出答案,极大地提高了处理效率。这种双模式设计,使得模型在效率与精度之间找到了完美的平衡。
推理能力大幅提升
在多个权威基准测试中,Qwen3 展现出了惊人的性能。在奥数水平的 AIME25 测评中,它斩获 81.5 分,刷新了开源模型的纪录,这一成绩充分证明了其在复杂数学推理方面的深厚功底。在代码能力测试 LiveCodeBench 中,它突破 70 分大关,超越了 Grok3,说明其在代码生成、理解和应用方面的能力十分卓越。在模型人类偏好对齐评估 ArenaHard 中,Qwen3 以 95.6 分的成绩超越了 OpenAI - o1 和 DeepSeek - R1 。此外,在 GPQA、AIME24/25 等测试中也表现出色,全面超越了 DeepSeek - R1、OpenAI - o1 等全球顶尖模型。这些测试结果表明,Qwen3 在推理能力上已经达到了行业领先水平。

多语言支持能力强大
Qwen3 支持 119 种语言和方言,涵盖了印欧语系、汉藏语系、亚非语系、南岛语系等多个语系。这一广泛的多语言能力为全球用户提供了极大的便利,无论是跨国企业进行多语言文档处理、翻译,还是全球化的智能客服系统,Qwen3 都能轻松应对,开创了国际应用的新可能性。
三、性能优势:小参数,大能量
小型模型的卓越表现
小型 MoE 模型 Qwen3 - 30B - A3B 的激活参数仅为 QwQ - 32B 的 10%,却取得了更优的表现,这体现了 Qwen3 在模型架构和训练优化上的巨大成效。甚至像 Qwen3 - 4B 这样参数规模相对较小的模型,也能媲美 Qwen2.5 - 72B - Instruct 的性能水平 。这种高效的性能表现,使得 Qwen3 系列模型在实际应用中,尤其是在资源受限的场景下,具有显著优势。例如在移动端设备或者边缘计算场景中,小参数模型能够以较低的计算资源消耗实现较高的性能输出。
模型性能与成本的平衡
业界分析认为,Qwen3 在参数量减少的情况下实现高性能,并非简单的裁剪,而是通过更高效的计算方式和知识蒸馏技术实现的。例如,Qwen3 引入动态稀疏激活机制,仅在必要时调用关键参数,从而降低计算冗余。这一改进使其在资源受限场景(如移动端或边缘设备)中更具部署潜力。以企业部署为例,原本需要大量计算资源和高昂成本才能运行的复杂 AI 应用,现在借助 Qwen3 的高效模型,可以在相对低成本的硬件配置下实现同样甚至更好的效果。
四、训练与优化:数据与方法的双重升级
数据规模翻倍
预训练数据量从 Qwen2.5 的 18 万亿 token 扩展至 36 万亿 token,新增 119 种语言及方言支持,涵盖了 PDF 文档解析、STEM 领域教材、代码片段等高质量数据。为了构建这个庞大的数据集,团队不仅从网络收集数据,还利用 Qwen2.5 - VL 视觉模型辅助提取文档文本,结合 Qwen2.5 - Math 与 Qwen2.5 - Coder 合成数学及代码数据,通过多渠道多方式的数据整合与处理,使得模型在专业领域的理解能力显著增强 。例如在处理专业的学术文献、代码项目文档时,Qwen3 能够凭借丰富的数据训练基础,更好地理解其中的专业术语、逻辑结构和语义信息。
四阶段训练流程
通过 "长思维链冷启动 - 强化学习 - 模式融合 - 通用优化" 四阶段后训练,Qwen3 实现推理能力与响应速度的深度整合。在第一阶段,使用多样化的长思维链数据微调模型,涵盖各种任务和领域,如数学、编程、逻辑推理和 STEM 问题,这个过程旨在使模型具备基本的推理能力。第二阶段专注于扩大强化学习的计算资源,利用基于规则的奖励来增强模型的探索和利用能力。第三阶段,在一份包括长思维链数据和常用的指令微调数据的组合数据上对模型进行微调,将非思考模式整合到思考模型中,确保了推理和快速响应能力的无缝结合。最后,在第四阶段,将强化学习应用于超过 20 个通用领域任务,包括指令遵循、格式遵循和 Agent 能力等任务,以进一步增强模型的一般能力并纠正不良行为 。通过这样系统且精细的训练流程,Qwen3 在性能上实现了质的飞跃。
五、开源与应用:推动大模型生态发展
阿里巴巴开源了 Qwen3 的全部 8 个模型版本,包括 2 款 MoE 模型(Qwen3 - 235B - A22B 和 Qwen3 - 30B - A3B)以及 6 款 Dense 模型(Qwen3 - 0.6B、1.7B、4B、8B、14B、32B) 。Qwen3 系列模型均采用宽松的 Apache 2.0 协议开源,全球开发者可在 Hugging Face、ModelScope 等平台免费下载商用。这一开源举措无疑将极大地推动大模型技术的发展,吸引全球开发者基于 Qwen3 进行二次开发和创新应用。阿里还同步推出 Qwen - Agent 框架,封装工具调用模板,降低智能体开发门槛,推动 "模型即服务" 生态落地。在实际应用方面,Qwen3 的多语言支持和强大的推理能力使其在多个领域具有广阔的应用前景。在金融领域,可基于 Qwen3 - 32B 构建智能投研系统,帮助分析师快速分析市场数据、挖掘投资机会;在教育领域,可用 4B 模型开发个性化学习助手,根据学生的学习情况和问题提供精准的解答和学习建议。
Qwen3 来了!