Mac Studio M3 Ultra 运行大模型实测：Qwen3.6 vs 6款主流模型工具调用对比

苹果 M3 Ultra 芯片将统一内存容量推升至 512GB，让本地运行千亿参数大模型成为可能。这次测试在 Apple M3 Ultra + 256GB 内存环境下，对比 7 款主流大模型在工具调用、代码生成、推理速度等多个维度的表现。数据全部基于实测，Qwen 系列模型在工具调用方面展现出压倒性优势。

测试环境说明

这次测试使用的硬件是 Apple M3 Ultra Mac Studio，配备 256GB 统一内存。推理服务器使用 Rapid-MLX（基于苹果 MLX 框架构建），测试覆盖了 5 个主流 Agent 框架：Hermes Agent、PydanticAI、LangChain、smolagents（HuggingFace）以及 OpenClaude/Anthropic SDK。

测试环境配置

处理器 Apple M3 Ultra

统一内存 256GB

推理框架 Rapid-MLX

测试框架 Hermes/PydanticAI/LangChain /smolagents/OpenClaude

测试项目 工具调用 / HumanEval / MMLU / 速度

**工具调用测试内容：**每个测试套件包含 7-11 个 API 测试，覆盖单工具调用、多工具选择、带结果的多轮对话、流式工具调用。Hermes 压力测试注入 62 个工具。

**速度测量：**稳态解码阶段测量（排除首字延迟影响）。

速度基准测试

先看速度。同一台 M3 Ultra 机器上，不同模型的生成速度差异非常明显。Qwen 3.6 35B 跑出了 100 tokens/秒的成绩，而更大的 Llama 3.3 70B 只有约 20 tokens/秒。

模型	显存占用	生成速度	工具调用	推荐场景
Qwen3.5-4B (4bit)	2.4 GB	168 tok/s	100%	16GB MacBook，快速迭代
GPT-OSS 20B (mxfp4)	12 GB	127 tok/s	80%	速度优先
Qwen3.5-9B (4bit)	5.1 GB	108 tok/s	100%	大多数 Mac 的最佳选择
Qwen 3.6 35B (4bit)	~20 GB	100 tok/s	100%	新模型，256 experts，262K ctx
Qwen3.5-35B (8bit)	37 GB	83 tok/s	100%	最佳质量性价比
Qwen3.5-122B (mxfp4)	65 GB	57 tok/s	100%	前沿级别，需 96GB+ Mac
Llama 3.3 70B (4bit)	-	~20 tok/s	67%	通用场景

**关键发现：**Qwen 3.6 35B 虽然是 35B 参数的 MoE 模型，但凭借 256 个专家和 262K 上下文窗口，跑出了 100 tokens/秒的速度，与 Qwen3.5-35B 相比毫不逊色。

Agent 兼容性矩阵

这是测试的核心部分。在 5 个不同的 Agent 框架下测试每款模型的工具调用成功率。表格中的百分比代表通过率。

模型	Hermes	PydanticAI	LangChain	smolagents	OpenClaude	速度
Qwen 3.6 35B (4bit) NEW	100%	100%	93%	100%	100%	100 tok/s
Qwen 3.5 35B (8bit)	100%	100%	100%	100%	100%	83 tok/s
Qwopus 27B	100%	100%	100%	100%	100%	38 tok/s
Qwen 3.5 27B (4bit)	100%	100%	100%	---	---	38 tok/s
Gemma 4 26B (4bit)	100%	67%	---	100%	80%	~40 tok/s
DeepSeek-R1 32B (4bit)	55%	50%	---	100%	40%	~30 tok/s
Llama 3.3 70B (4bit)	45%	67%	67%	100%	---	~20 tok/s

为什么 Qwen 表现这么稳

Qwen 系列在所有框架下都能稳定达到接近 100% 的工具调用成功率，而 DeepSeek-R1 和 Llama 3.3 在 Hermes、PydanticAI、OpenClaude 等结构化函数调用框架下表现明显下滑。

这背后的原因是：smolagents 使用的是基于文本的代码生成方式，对模型的结构化输出要求最低。而 Hermes、PydanticAI 这些框架要求模型严格遵循 JSON Schema 格式输出函数调用，对模型的指令遵循能力要求更高。

测试者原话："smolagents 是最宽容的框架，甚至 DeepSeek-R1 和 Llama 3.3 都能在这里达到 100%。但换成结构化输出框架，它们的表现就掉到 40-55%。"

模型质量基准

速度只是一方面，实际能力怎么样？这里用 HumanEval（代码能力）和 tinyMMLU（知识问答）来衡量模型质量。

模型	HumanEval (10题)	MMLU (10题)	工具调用	MHI 分数
Qwopus 27B	80%	90%	100%	92
Qwen 3.5 27B	40%	100%	100%	82
Qwen 3.5 35B (8bit)	60%	40%	100%	76
Qwen 3.6 35B (4bit)	20%	30%	100%	56
Llama 3.3 70B	50%	90%	67%	56-83
DeepSeek-R1 32B	30%	100%	40-55%	49-79

关于 MHI 分数

MHI（Model-Harness Index）是这次测试设计的综合指标，计算公式是：

50% 工具调用 + 30% HumanEval + 20% MMLU

这个指标衡量的是"模型作为 Agent 后端的表现如何"。从结果来看，Qwopus 27B 以 92 分领先，紧随其后的是 Qwen 3.5 27B（82分）和 Qwen 3.5 35B（76分）。

几个值得注意的点

Qwen 3.6 为什么 HumanEval 分数不高

Qwen 3.6 35B 在 HumanEval 上只拿到 20%，MMLU 30%，但这不代表它实际编程能力差。HumanEval 是在 completions 接口下测试的，测试的是模型直接补全代码的能力，而不是通过 Agent 工作流调用工具的能力。

Qwen 3.6 的定位是 Agent 专用模型，它在工具调用上的完美表现（100%）才是它的核心优势。4-bit 量化对这个测试也有一定影响。

DeepSeek-R1 32B 的矛盾

DeepSeek-R1 在 MMLU 上是 100%，说明知识储备很扎实。但在工具调用上表现一般，在 Hermes 下只有 55%，在 OpenClaude 下只有 40%。

如果你主要用它做对话问答，它很合适。但如果要让它作为 Agent 后端去调用工具完成复杂任务，它的表现就不如 Qwen 系列稳定。

**选模型看用途：**不要只看 MHI 分数。Qwopus 27B 分数最高，但 Qwen 3.6 35B 的工具调用更稳定。DeepSeek-R1 知识面广，但 Agent 能力需要框架配合。选择取决于你的具体需求。

Qwen 3.6 的技术规格

Qwen 3.6 35B 是一款 MoE（混合专家）架构模型：

Qwen 3.6 35B 核心参数

架构MoE（混合专家）

总参数 35B

激活参数 3B

专家数量 256

上下文窗口 262K tokens

显存占用 ~20GB（4-bit 量化）

实际推荐

**16GB 内存的 MacBook：**选 Qwen3.5-4B (4bit)，168 tokens/秒的速度飞快，2.4GB 显存占用，工具调用 100%。

**32GB-64GB 内存的 Mac：**Qwen3.5-9B (4bit) 是最佳平衡点，108 tokens/秒，5.1GB 显存，适合大多数使用场景。

**96GB+ 内存的 Mac Studio：**直接上 Qwen 3.6 35B，100 tokens/秒的速度，256 个专家，最高262K 上下文，工具调用完美。预算充足就选这个。

**需要前沿级别能力：**Qwen3.5-122B (mxfp4)，57 tokens/秒，工具调用 100%，需要 96GB 以上内存。

写在最后

这次测试的数据很清晰：Qwen 系列在工具调用上确实有压倒性优势，所有 Qwen 模型在 5 个主流框架下都能稳定达到 100%（或接近 100%）的通过率。

Qwen 3.6 35B 作为新发布的 Agent 专用模型，凭借 MoE 架构和 256 专家的设计，在保持高速的同时实现了完美的工具调用能力。262K 的上下文窗口也让它能处理更长更复杂的任务。

如果你要在 Mac 上跑 Agent 类的应用，Qwen 系列是首选。DeepSeek-R1 适合知识问答场景，但作为 Agent 后端还需要框架配合。Llama 3.3 在这里的表现相对一般。