苹果 M3 Ultra 芯片将统一内存容量推升至 512GB,让本地运行千亿参数大模型成为可能。这次测试在 Apple M3 Ultra + 256GB 内存环境下,对比 7 款主流大模型在工具调用、代码生成、推理速度等多个维度的表现。数据全部基于实测,Qwen 系列模型在工具调用方面展现出压倒性优势。
测试环境说明
这次测试使用的硬件是 Apple M3 Ultra Mac Studio,配备 256GB 统一内存。推理服务器使用 Rapid-MLX(基于苹果 MLX 框架构建),测试覆盖了 5 个主流 Agent 框架:Hermes Agent、PydanticAI、LangChain、smolagents(HuggingFace)以及 OpenClaude/Anthropic SDK。
测试环境配置
处理器 Apple M3 Ultra
统一内存 256GB
推理框架 Rapid-MLX
测试框架 Hermes/PydanticAI/LangChain /smolagents/OpenClaude
测试项目 工具调用 / HumanEval / MMLU / 速度
**工具调用测试内容:**每个测试套件包含 7-11 个 API 测试,覆盖单工具调用、多工具选择、带结果的多轮对话、流式工具调用。Hermes 压力测试注入 62 个工具。
**速度测量:**稳态解码阶段测量(排除首字延迟影响)。
速度基准测试
先看速度。同一台 M3 Ultra 机器上,不同模型的生成速度差异非常明显。Qwen 3.6 35B 跑出了 100 tokens/秒的成绩,而更大的 Llama 3.3 70B 只有约 20 tokens/秒。
| 模型 | 显存占用 | 生成速度 | 工具调用 | 推荐场景 |
|---|---|---|---|---|
| Qwen3.5-4B (4bit) | 2.4 GB | 168 tok/s | 100% | 16GB MacBook,快速迭代 |
| GPT-OSS 20B (mxfp4) | 12 GB | 127 tok/s | 80% | 速度优先 |
| Qwen3.5-9B (4bit) | 5.1 GB | 108 tok/s | 100% | 大多数 Mac 的最佳选择 |
| Qwen 3.6 35B (4bit) | ~20 GB | 100 tok/s | 100% | 新模型,256 experts,262K ctx |
| Qwen3.5-35B (8bit) | 37 GB | 83 tok/s | 100% | 最佳质量性价比 |
| Qwen3.5-122B (mxfp4) | 65 GB | 57 tok/s | 100% | 前沿级别,需 96GB+ Mac |
| Llama 3.3 70B (4bit) | - | ~20 tok/s | 67% | 通用场景 |
**关键发现:**Qwen 3.6 35B 虽然是 35B 参数的 MoE 模型,但凭借 256 个专家和 262K 上下文窗口,跑出了 100 tokens/秒的速度,与 Qwen3.5-35B 相比毫不逊色。
Agent 兼容性矩阵
这是测试的核心部分。在 5 个不同的 Agent 框架下测试每款模型的工具调用成功率。表格中的百分比代表通过率。
| 模型 | Hermes | PydanticAI | LangChain | smolagents | OpenClaude | 速度 |
|---|---|---|---|---|---|---|
| Qwen 3.6 35B (4bit) NEW | 100% | 100% | 93% | 100% | 100% | 100 tok/s |
| Qwen 3.5 35B (8bit) | 100% | 100% | 100% | 100% | 100% | 83 tok/s |
| Qwopus 27B | 100% | 100% | 100% | 100% | 100% | 38 tok/s |
| Qwen 3.5 27B (4bit) | 100% | 100% | 100% | --- | --- | 38 tok/s |
| Gemma 4 26B (4bit) | 100% | 67% | --- | 100% | 80% | ~40 tok/s |
| DeepSeek-R1 32B (4bit) | 55% | 50% | --- | 100% | 40% | ~30 tok/s |
| Llama 3.3 70B (4bit) | 45% | 67% | 67% | 100% | --- | ~20 tok/s |
为什么 Qwen 表现这么稳
Qwen 系列在所有框架下都能稳定达到接近 100% 的工具调用成功率,而 DeepSeek-R1 和 Llama 3.3 在 Hermes、PydanticAI、OpenClaude 等结构化函数调用框架下表现明显下滑。
这背后的原因是:smolagents 使用的是基于文本的代码生成方式,对模型的结构化输出要求最低。而 Hermes、PydanticAI 这些框架要求模型严格遵循 JSON Schema 格式输出函数调用,对模型的指令遵循能力要求更高。
测试者原话:"smolagents 是最宽容的框架,甚至 DeepSeek-R1 和 Llama 3.3 都能在这里达到 100%。但换成结构化输出框架,它们的表现就掉到 40-55%。"
模型质量基准
速度只是一方面,实际能力怎么样?这里用 HumanEval(代码能力)和 tinyMMLU(知识问答)来衡量模型质量。
| 模型 | HumanEval (10题) | MMLU (10题) | 工具调用 | MHI 分数 |
|---|---|---|---|---|
| Qwopus 27B | 80% | 90% | 100% | 92 |
| Qwen 3.5 27B | 40% | 100% | 100% | 82 |
| Qwen 3.5 35B (8bit) | 60% | 40% | 100% | 76 |
| Qwen 3.6 35B (4bit) | 20% | 30% | 100% | 56 |
| Llama 3.3 70B | 50% | 90% | 67% | 56-83 |
| DeepSeek-R1 32B | 30% | 100% | 40-55% | 49-79 |
关于 MHI 分数
MHI(Model-Harness Index)是这次测试设计的综合指标,计算公式是:
50% 工具调用 + 30% HumanEval + 20% MMLU
这个指标衡量的是"模型作为 Agent 后端的表现如何"。从结果来看,Qwopus 27B 以 92 分领先,紧随其后的是 Qwen 3.5 27B(82分)和 Qwen 3.5 35B(76分)。
几个值得注意的点
Qwen 3.6 为什么 HumanEval 分数不高
Qwen 3.6 35B 在 HumanEval 上只拿到 20%,MMLU 30%,但这不代表它实际编程能力差。HumanEval 是在 completions 接口下测试的,测试的是模型直接补全代码的能力,而不是通过 Agent 工作流调用工具的能力。
Qwen 3.6 的定位是 Agent 专用模型,它在工具调用上的完美表现(100%)才是它的核心优势。4-bit 量化对这个测试也有一定影响。
DeepSeek-R1 32B 的矛盾
DeepSeek-R1 在 MMLU 上是 100%,说明知识储备很扎实。但在工具调用上表现一般,在 Hermes 下只有 55%,在 OpenClaude 下只有 40%。
如果你主要用它做对话问答,它很合适。但如果要让它作为 Agent 后端去调用工具完成复杂任务,它的表现就不如 Qwen 系列稳定。
**选模型看用途:**不要只看 MHI 分数。Qwopus 27B 分数最高,但 Qwen 3.6 35B 的工具调用更稳定。DeepSeek-R1 知识面广,但 Agent 能力需要框架配合。选择取决于你的具体需求。
Qwen 3.6 的技术规格
Qwen 3.6 35B 是一款 MoE(混合专家)架构模型:
Qwen 3.6 35B 核心参数
架构MoE(混合专家)
总参数 35B
激活参数 3B
专家数量 256
上下文窗口 262K tokens
显存占用 ~20GB(4-bit 量化)
实际推荐
**16GB 内存的 MacBook:**选 Qwen3.5-4B (4bit),168 tokens/秒的速度飞快,2.4GB 显存占用,工具调用 100%。
**32GB-64GB 内存的 Mac:**Qwen3.5-9B (4bit) 是最佳平衡点,108 tokens/秒,5.1GB 显存,适合大多数使用场景。
**96GB+ 内存的 Mac Studio:**直接上 Qwen 3.6 35B,100 tokens/秒的速度,256 个专家,最高262K 上下文,工具调用完美。预算充足就选这个。
**需要前沿级别能力:**Qwen3.5-122B (mxfp4),57 tokens/秒,工具调用 100%,需要 96GB 以上内存。
写在最后
这次测试的数据很清晰:Qwen 系列在工具调用上确实有压倒性优势,所有 Qwen 模型在 5 个主流框架下都能稳定达到 100%(或接近 100%)的通过率。
Qwen 3.6 35B 作为新发布的 Agent 专用模型,凭借 MoE 架构和 256 专家的设计,在保持高速的同时实现了完美的工具调用能力。262K 的上下文窗口也让它能处理更长更复杂的任务。
如果你要在 Mac 上跑 Agent 类的应用,Qwen 系列是首选。DeepSeek-R1 适合知识问答场景,但作为 Agent 后端还需要框架配合。Llama 3.3 在这里的表现相对一般。