深夜突袭，阿里 Qwen3 登顶全球开源王座！暴击 DeepSeek-R1，2 小时狂揽 17k 星

【新智元导读】阿里 Qwen3 凌晨开源，正式登顶全球开源大模型王座！它的性能全面超越 DeepSeek-R1 和 OpenAI o1，采用 MoE 架构，总参数 235B，横扫各大基准。这次开源的 Qwen3 家族，8 款混合推理模型全部开源，免费商用。

就在今天凌晨，备受全球期待的阿里新一代通义千问模型 Qwen3 开源！

一经问世，它立刻登顶全球最强开源模型王座。

它的参数量仅为 DeepSeek-R1 的 1/3，但成本大幅下降，性能全面超越 R1、OpenAI-o1 等全球顶尖模型。

Qwen3 是国内首个「混合推理模型」，「快思考」与「慢思考」集成进同一个模型，对简单需求可低算力「秒回」答案，对复杂问题可多步骤「深度思考」，大大节省算力消耗。

它采用混合专家（MoE）架构，总参数量 235B，激活仅需 22B。

它的预训练数据量达 36T ，并在后训练阶段多轮强化学习，将非思考模式无缝整合到思考模型中。

一经诞生，Qwen3 立刻横扫各大基准。

而且，性能大幅提升的同时，它的部署成本还大幅下降，仅需 4 张 H20 即可部署 Qwen3 满血版，显存占用仅为性能相近模型的 1/3！

亮点总结：

· 各种尺寸的稠密模型和混合专家（MoE）模型，包括 0.6B、1.7B、4B、8B、14B、32B 以及 30B-A3B 和 235B-A22B。

· 能够在思考模式（用于复杂的逻辑推理、数学和编码）和非思考模式（用于高效的通用聊天）之间无缝切换，从而确保在各种场景中实现最佳性能。

· 推理能力显著增强，在数学、代码生成和常识逻辑推理方面，超越了之前处于思考模式下的 QwQ 和处于非思考模式下的 Qwen2.5 instruct 模型。

· 更符合人类偏好，擅长创意写作、角色扮演、多轮对话和指令遵循，从而提供更自然、引人入胜和更真实的对话体验。

· 精通 AI 智能体能力，支持在思考和非思考模式下与外部工具的精确集成，并在复杂的基于智能体的任务中，在开源模型中实现了领先的性能。

· 首次支持 119 种语言和方言，具有强大的多语言指令跟随和翻译能力。

目前，Qwen 3 已同步上线魔搭社区、Hugging Face、GitHub，并可在线体验。

全球开发者、研究机构和企业均可免费下载模型并商用，也可以通过阿里云百炼调用 Qwen3 的 API 服务。个人用户可立即通过通义 APP 直接体验 Qwen3，夸克也即将全线接入 Qwen3。

在线体验：chat.qwen.ai/

魔搭社区：modelscope.cn/collections...

Hugging Face：huggingface.co/collections...

GitHub：github.com/QwenLM/Qwen...

至此，阿里通义已开源 200 余个模型，全球下载量超 3 亿次，千问衍生模型数超 10 万个，彻底超越美国 Llama，成为全球第一开源模型！

Qwen 3 家族登场

8 款「混合推理」模型全开源

这次，阿里一口气开源了 8 款混合推理模型，包括 2 款 30B、235B 的 MoE 模型，以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款稠密模型，均采用 Apache 2.0 许可。

其中，每款模型均斩获同尺寸开源模型 SOTA。

Qwen3 的 30B 参数 MoE 模型实现了 10 倍以上的模型性能杠杆提升，仅激活 3B 就能媲美上代 Qwen2.5-32B 模型性能。

Qwen3 的稠密模型性能继续突破，一半的参数量可实现同样的高性能，如 32B 版本的 Qwen3 模型可跨级超越 Qwen2.5-72B 性能。

同时，所有 Qwen3 模型都是混合推理模型，API 可按需设置「思考预算」（即预期最大深度思考的 tokens 数量），进行不同程度的思考，灵活满足 AI 应用和不同场景对性能和成本的多样需求。

比如，4B 模型是手机端的绝佳尺寸；8B 可在电脑和汽车端侧丝滑部署应用；32B 最受企业大规模部署欢迎，有条件的开发者也可轻松上手。

开源模型新王，刷新纪录

Qwen3 在推理、指令遵循、工具调用、多语言能力等方面均大幅增强，即创下所有国产模型及全球开源模型的性能新高------

在奥数水平的 AIME25 测评中，Qwen3 斩获 81.5 分，刷新开源纪录。

在考察代码能力的 LiveCodeBench 评测中，Qwen3 突破 70 分大关，表现甚至超过 Grok3。

在评估模型人类偏好对齐的 ArenaHard 测评中，Qwen3 以 95.6 分超越了 OpenAI-o1 及 DeepSeek-R1。

具体来说，旗舰模型 Qwen3-235B-A22B 与其他顶级模型（如 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro）相比，在编码、数学、通用能力等各项基准测试中，成绩都相当亮眼。

此外，小型混合专家模型 Qwen3-30B-A3B 虽然激活参数只有 QwQ-32B 的十分之一，但性能却更胜一筹。

甚至是 Qwen3-4B 这样的小模型，也能媲美 Qwen2.5-72B-Instruct 的性能。

经过微调的模型，如 Qwen3-30B-A3B，及其预训练版本（如 Qwen3-30B-A3B-Base），现在都可在 Hugging Face、ModelScope 和 Kaggle 等平台上找到。

对于部署，阿里推荐使用 SGLang 和 vLLM 等框架。对于本地使用，强烈推荐 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 等工具。

无论研究、开发还是生产环境，Qwen3 都可轻松集成到各种工作流程中。

利好智能体 Agent 和大模型应用爆发

可以说，Qwen3 为即将到来的智能体 Agent 和大模型应用爆发提供了更好的支持。

在评估模型 Agent 能力的 BFCL 评测中，Qwen3 创下 70.8 的新高，超越 Gemini2.5-Pro、OpenAI-o1 等顶尖模型，这将大幅降低 Agent 调用工具的门槛。

同时，Qwen3 原生支持 MCP 协议，并具备强大的工具调用能力，结合封装了工具调用模板和工具调用解析器的 Qwen-Agent 框架。

这将大大降低编码复杂性，实现高效的手机及电脑 Agent 操作等任务。

主要特点

混合推理模式

Qwen3 模型引入了一种混合问题解决方式。它们支持两种模式：

思考模式：在该模式下，模型会逐步推理，然后给出答案。这适合需要深入思考的复杂问题。
非思考模式：在该模式下，模型会快速给出答案，适用于对速度要求较高的简单问题。

这种灵活性，让用户可以根据任务的复杂程度，控制模型的推理过程。

例如，难题可以通过扩展推理来解决，而简单的问题可以直接回答，而不会延迟。

至关重要的是，这两种模式的结合，大大提高了模型稳定高效地控制推理资源的能力。

如上所示，Qwen3 表现出可扩展且平滑的性能改进，这与分配的计算推理预算直接相关。

这种设计使用户能够更轻松地配置特定于任务的预算，从而在成本效率和推理质量之间实现更优化的平衡。

多语言支持

Qwen3 模型支持 119 种语言和方言。

如此广泛的多语言能力，也意味着 Qwen 3 有极大潜力创建风靡全球的国际应用。

更强大的智能体能力

阿里对 Qwen3 模型进行了优化，以提高编码和智能体能力，并且还加强了对 MCP 的支持。

下面这个示例，很好地展示了 Qwen3 是如何思考并与环境交互的。

视频详情

36 万亿 token，多阶段训练

作为千问系列最强模型，Qwen3 究竟是如何实现如此惊艳的表现？

接下来，一起扒一扒 Qwen3 背后技术细节。

预训练

与 Qwen2.5 相比，Qwen3 预训练数据集规模几乎是上一代两倍，从 18 万亿个 token 扩展到了 36 万亿个 token。

它覆盖了 119 种语言和方言，不仅来源于网络，还包括从 PDF 等文档中提取文本内容。

为了确保数据质量，团队利用 Qwen2.5-VL 提取文档文本，并通过 Qwen2.5 优化提取内容的准确性。

此外，为了提升模型在数学和代码领域的表现，Qwen3 还通过 Qwen2.5-Math 和 Qwen2.5-Coder 生成大量合成数据，包括教科书、问答对和代码片段。

Qwen3 预训练过程，一共分为三个阶段，逐步提升模型的能力：

第一阶段（S1）：基础语言能力构建

使用超 30 万亿个 token，以 4k 上下文长度进行预训练。这一阶段为模型奠定了扎实的语言能力和通用知识基础。

第二阶段（S2）：知识稠密型优化

通过增加 STEM、编码和推理任务等知识稠密型数据的比例，模型在额外 5 万亿和 token 上继续训练，进一步提升专业能力的表现。

第三阶段（S3）：上下文能力扩展

利用高质量上下文数据，将模型的上下文长度扩展至 32k，确保其能够处理复杂、超长输入。

得益于模型架构优化、数据规模扩展和更高效的训练方法，Qwen3 Dense 基础模型展现出亮眼的性能。

如下表所示，Qwen3-1.7B/4B/8B/14B/32B-Base 可以媲美 Qwen2.5-3B/7B/14B/32B/72B-Base，以更小的参数量达到更大模型的水平。

尤其是，在 STEM、编码和推理等领域，Qwen3 Dense 基础模型甚至优于更大的 Qwen2.5 模型。

更令人瞩目的是，Qwen3 MoE 模型仅用 10% 激活参数，即可实现 Qwen2.5 Dense 基础模型相似的性能。

这不仅大幅降低了训练和推理成本，还为模型的实际部署提供了更高的灵活性。

后训练

为了打造一个既能进行复杂推理，又能快速响应的混合模型，Qwen3 设计了一个四阶段后训练流程。

长思维链冷启动

使用多样化的长思维链数据，覆盖数学、编码、逻辑推理和 STEM 问题，训练模型掌握基本的推理能力。

长思维链强化学习

通过扩展 RL 的计算资源，结合基于规则的奖励机制，提升模型在探索和利用推理路径方面的能力。

思维模式融合

使用长思维链数据和指令微调数据进行微调，将快速反应能力融入推理模型，确保模型在复杂任务中既精准又高效。

此数据由第二阶段的增强思考模型生成，确保推理和快速响应能力的无缝融合。

通用强化学习

在 20 多个通用领域任务，如指令遵循、格式遵循和智能体能力中应用 RL，进一步提升模型的通用性和鲁棒性，同时纠正不良行为。

全网好评如潮

Qwen3 开源不到 3 小时，GitHub 狂揽 17k 星，彻底点燃了开源社区的热情。开发者们纷纷下载，开启了极速测试。

项目地址：github.com/QwenLM/Qwen...

苹果工程师 Awni Hannun 宣布，Qwen3 已经得到 MLX 框架支持。

而且，不论是 iPhone（0.6B, 4B），还是 MacBook（8B, 30B, 3B/30B MoE）、M2/M3 Ultra（22B/235B MoE）消费级设备，均可本地跑。

他在 M2 Ultra 上运行了 Qwen3 235B MoE，生成速度高达 28 token/s。

有网友实测后发现，与 Qwen3 大小相同的 Llama 模型，简直不在一个级别上。前者推理更深入，保持更长上下文，还能解决更难的问题。

还有人表示，Qwen3 就像是一个 DeepSeek 时刻。

官方指南

如何用 Qwen3 进行开发

这次，阿里还放出了在不同框架上使用 Qwen3 的简单指南。

首先，这是一个在 Hugging Face transformers 中使用 Qwen3-30B-A3B 的标准示例：

ini 复制代码

from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-30B-A3B"
# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # Switch between thinking and non-thinking modes. Default is True.
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 
# parsing thinking content
try:
    # rindex finding 151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0
thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")
print("thinking content:", thinking_content)
print("content:", content)

要关闭推理功能，只需更改参数 enable_thinking，如下所示：

ini 复制代码

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # True is the default value for enable_thinking.
)

对于部署，可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.4 创建与 OpenAI 兼容的 API 端点：

SGLang：

css 复制代码

python -m sglang.launch_server --model-path Qwen/Qwen3-30B-A3B --reasoning-parser qwen3

vLLM：

css 复制代码

vllm serve Qwen/Qwen3-30B-A3B --enable-reasoning --reasoning-parser deepseek_r1

如果将其用于本地开发，则可以通过运行简单的命令 ollama run qwen3:30b-a3b 来使用 ollama 运行模型，或者，也可使用 LMStudio、llama.cpp 和 ktransformers 在本地进行构建。

高级用法

团队提供了一种软切换机制，当 enable_thinking=True 时，用户可以通过该机制动态控制模型的行为。

具体来说，可以将 / think 和 / no_think 添加到用户提示或系统消息中，以逐轮切换模型的思考模式。该模型将遵循多轮对话中最近的指令。

下面就是一个多轮对话的示例：

python 复制代码

from transformers import AutoModelForCausalLM, AutoTokenizer
class QwenChatbot:
    def __init__(self, model_):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.history = []
    def generate_response(self, user_input):
        messages = self.history + [{"role": "user", "content": user_input}]
        text = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )
        inputs = self.tokenizer(text, return_tensors="pt")
        response_ids = self.model.generate(**inputs, max_new_tokens=32768)[0][len(inputs.input_ids[0]):].tolist()
        response = self.tokenizer.decode(response_ids, skip_special_tokens=True)
        # Update history
        self.history.append({"role": "user", "content": user_input})
        self.history.append({"role": "assistant", "content": response})
        return response
# Example Usage
if __name__ == "__main__":
    chatbot = QwenChatbot()
    # First input (without /think or /no_think tags, thinking mode is enabled by default)
    user_input_1 = "How many r's in strawberries?"
    print(f"User: {user_input_1}")
    response_1 = chatbot.generate_response(user_input_1)
    print(f"Bot: {response_1}")
    print("----------------------")
    # Second input with /no_think
    user_input_2 = "Then, how many r's in blueberries? /no_think"
    print(f"User: {user_input_2}")
    response_2 = chatbot.generate_response(user_input_2)
    print(f"Bot: {response_2}") 
    print("----------------------")
    # Third input with /think
    user_input_3 = "Really? /think"
    print(f"User: {user_input_3}")
    response_3 = chatbot.generate_response(user_input_3)
    print(f"Bot: {response_3}")

智能体功能的使用

Qwen3 在工具调用方面的表现非常出色。

团队建议开发者使用 Qwen-Agent，来充分利用 Qwen3 的智能体功能。

Qwen-Agent 在内部集成了工具调用模板和解析器，从而大大降低了编码的复杂程度。

要定义可用的工具，可以使用 MCP 配置文件，使用 Qwen-Agent 的集成工具，或者自己集成其他工具。

参考资料：

qwenlm.github.io/blog/qwen3/