Mac Studio M3 Ultra 运行大模型实测:Qwen3.6 vs 6款主流模型工具调用对比

苹果 M3 Ultra 芯片将统一内存容量推升至 512GB,让本地运行千亿参数大模型成为可能。这次测试在 Apple M3 Ultra + 256GB 内存环境下,对比 7 款主流大模型在工具调用、代码生成、推理速度等多个维度的表现。数据全部基于实测,Qwen 系列模型在工具调用方面展现出压倒性优势。

测试环境说明

这次测试使用的硬件是 Apple M3 Ultra Mac Studio,配备 256GB 统一内存。推理服务器使用 Rapid-MLX(基于苹果 MLX 框架构建),测试覆盖了 5 个主流 Agent 框架:Hermes Agent、PydanticAI、LangChain、smolagents(HuggingFace)以及 OpenClaude/Anthropic SDK。

测试环境配置

处理器 Apple M3 Ultra

统一内存 256GB

推理框架 Rapid-MLX

测试框架 Hermes/PydanticAI/LangChain /smolagents/OpenClaude

测试项目 工具调用 / HumanEval / MMLU / 速度

**工具调用测试内容:**每个测试套件包含 7-11 个 API 测试,覆盖单工具调用、多工具选择、带结果的多轮对话、流式工具调用。Hermes 压力测试注入 62 个工具。

**速度测量:**稳态解码阶段测量(排除首字延迟影响)。

速度基准测试

先看速度。同一台 M3 Ultra 机器上,不同模型的生成速度差异非常明显。Qwen 3.6 35B 跑出了 100 tokens/秒的成绩,而更大的 Llama 3.3 70B 只有约 20 tokens/秒。

模型 显存占用 生成速度 工具调用 推荐场景
Qwen3.5-4B (4bit) 2.4 GB 168 tok/s 100% 16GB MacBook,快速迭代
GPT-OSS 20B (mxfp4) 12 GB 127 tok/s 80% 速度优先
Qwen3.5-9B (4bit) 5.1 GB 108 tok/s 100% 大多数 Mac 的最佳选择
Qwen 3.6 35B (4bit) ~20 GB 100 tok/s 100% 新模型,256 experts,262K ctx
Qwen3.5-35B (8bit) 37 GB 83 tok/s 100% 最佳质量性价比
Qwen3.5-122B (mxfp4) 65 GB 57 tok/s 100% 前沿级别,需 96GB+ Mac
Llama 3.3 70B (4bit) - ~20 tok/s 67% 通用场景

**关键发现:**Qwen 3.6 35B 虽然是 35B 参数的 MoE 模型,但凭借 256 个专家和 262K 上下文窗口,跑出了 100 tokens/秒的速度,与 Qwen3.5-35B 相比毫不逊色。

Agent 兼容性矩阵

这是测试的核心部分。在 5 个不同的 Agent 框架下测试每款模型的工具调用成功率。表格中的百分比代表通过率。

模型 Hermes PydanticAI LangChain smolagents OpenClaude 速度
Qwen 3.6 35B (4bit) NEW 100% 100% 93% 100% 100% 100 tok/s
Qwen 3.5 35B (8bit) 100% 100% 100% 100% 100% 83 tok/s
Qwopus 27B 100% 100% 100% 100% 100% 38 tok/s
Qwen 3.5 27B (4bit) 100% 100% 100% --- --- 38 tok/s
Gemma 4 26B (4bit) 100% 67% --- 100% 80% ~40 tok/s
DeepSeek-R1 32B (4bit) 55% 50% --- 100% 40% ~30 tok/s
Llama 3.3 70B (4bit) 45% 67% 67% 100% --- ~20 tok/s

为什么 Qwen 表现这么稳

Qwen 系列在所有框架下都能稳定达到接近 100% 的工具调用成功率,而 DeepSeek-R1 和 Llama 3.3 在 Hermes、PydanticAI、OpenClaude 等结构化函数调用框架下表现明显下滑。

这背后的原因是:smolagents 使用的是基于文本的代码生成方式,对模型的结构化输出要求最低。而 Hermes、PydanticAI 这些框架要求模型严格遵循 JSON Schema 格式输出函数调用,对模型的指令遵循能力要求更高。

测试者原话:"smolagents 是最宽容的框架,甚至 DeepSeek-R1 和 Llama 3.3 都能在这里达到 100%。但换成结构化输出框架,它们的表现就掉到 40-55%。"

模型质量基准

速度只是一方面,实际能力怎么样?这里用 HumanEval(代码能力)和 tinyMMLU(知识问答)来衡量模型质量。

模型 HumanEval (10题) MMLU (10题) 工具调用 MHI 分数
Qwopus 27B 80% 90% 100% 92
Qwen 3.5 27B 40% 100% 100% 82
Qwen 3.5 35B (8bit) 60% 40% 100% 76
Qwen 3.6 35B (4bit) 20% 30% 100% 56
Llama 3.3 70B 50% 90% 67% 56-83
DeepSeek-R1 32B 30% 100% 40-55% 49-79

关于 MHI 分数

MHI(Model-Harness Index)是这次测试设计的综合指标,计算公式是:

50% 工具调用 + 30% HumanEval + 20% MMLU

这个指标衡量的是"模型作为 Agent 后端的表现如何"。从结果来看,Qwopus 27B 以 92 分领先,紧随其后的是 Qwen 3.5 27B(82分)和 Qwen 3.5 35B(76分)。

几个值得注意的点

Qwen 3.6 为什么 HumanEval 分数不高

Qwen 3.6 35B 在 HumanEval 上只拿到 20%,MMLU 30%,但这不代表它实际编程能力差。HumanEval 是在 completions 接口下测试的,测试的是模型直接补全代码的能力,而不是通过 Agent 工作流调用工具的能力。

Qwen 3.6 的定位是 Agent 专用模型,它在工具调用上的完美表现(100%)才是它的核心优势。4-bit 量化对这个测试也有一定影响。

DeepSeek-R1 32B 的矛盾

DeepSeek-R1 在 MMLU 上是 100%,说明知识储备很扎实。但在工具调用上表现一般,在 Hermes 下只有 55%,在 OpenClaude 下只有 40%。

如果你主要用它做对话问答,它很合适。但如果要让它作为 Agent 后端去调用工具完成复杂任务,它的表现就不如 Qwen 系列稳定。

**选模型看用途:**不要只看 MHI 分数。Qwopus 27B 分数最高,但 Qwen 3.6 35B 的工具调用更稳定。DeepSeek-R1 知识面广,但 Agent 能力需要框架配合。选择取决于你的具体需求。

Qwen 3.6 的技术规格

Qwen 3.6 35B 是一款 MoE(混合专家)架构模型:

Qwen 3.6 35B 核心参数

架构MoE(混合专家)

总参数 35B

激活参数 3B

专家数量 256

上下文窗口 262K tokens

显存占用 ~20GB(4-bit 量化)

实际推荐

**16GB 内存的 MacBook:**选 Qwen3.5-4B (4bit),168 tokens/秒的速度飞快,2.4GB 显存占用,工具调用 100%。

**32GB-64GB 内存的 Mac:**Qwen3.5-9B (4bit) 是最佳平衡点,108 tokens/秒,5.1GB 显存,适合大多数使用场景。

**96GB+ 内存的 Mac Studio:**直接上 Qwen 3.6 35B,100 tokens/秒的速度,256 个专家,最高262K 上下文,工具调用完美。预算充足就选这个。

**需要前沿级别能力:**Qwen3.5-122B (mxfp4),57 tokens/秒,工具调用 100%,需要 96GB 以上内存。

写在最后

这次测试的数据很清晰:Qwen 系列在工具调用上确实有压倒性优势,所有 Qwen 模型在 5 个主流框架下都能稳定达到 100%(或接近 100%)的通过率。

Qwen 3.6 35B 作为新发布的 Agent 专用模型,凭借 MoE 架构和 256 专家的设计,在保持高速的同时实现了完美的工具调用能力。262K 的上下文窗口也让它能处理更长更复杂的任务。

如果你要在 Mac 上跑 Agent 类的应用,Qwen 系列是首选。DeepSeek-R1 适合知识问答场景,但作为 Agent 后端还需要框架配合。Llama 3.3 在这里的表现相对一般。

相关推荐
TeDi TIVE8 小时前
开源模型应用落地-工具使用篇-Spring AI-高阶用法(九)
人工智能·spring·开源
MY_TEUCK8 小时前
Sealos 平台部署实战指南:结合 Cursor 与版本发布流程
java·人工智能·学习·aigc
三毛的二哥8 小时前
BEV:典型BEV算法总结
人工智能·算法·计算机视觉·3d
j_xxx404_9 小时前
大语言模型 (LLM) 零基础入门:核心原理、训练机制与能力全解
人工智能·ai·transformer
飞哥数智坊9 小时前
全新 SOLO 在日常办公中的实际体验
人工智能·solo
<-->9 小时前
Megatron(全称 Megatron-LM,由 NVIDIA 开发)和 DeepSpeed(由 Microsoft 开发)
人工智能·pytorch·python·深度学习·transformer
朝新_9 小时前
【Spring AI 】图像与语音模型实战
java·人工智能·spring
Yuanxl9039 小时前
神经网络-Sequential 应用与实战
人工智能·深度学习·神经网络
火山引擎开发者社区10 小时前
Seedance 2.0 1080P 生成能力正式上线
人工智能