阿里开源的 Qwen3.6-27B ,很多人想在本地跑起来。Ollama、LM Studio、llama.cpp 三个工具怎么选?
先搞清楚三者的关系
llama.cpp 是最底层的推理引擎,纯 C/C++ 实现,专注于 GGUF 格式模型的高效推理。其他两个工具都是基于它构建的。
Ollama 在 llama.cpp 基础上做了封装,提供 Docker 化的部署体验,一条命令即可运行。
LM Studio 则是在 llama.cpp 基础上做了图形界面,适合不想碰命令行的用户。
三者底层性能差异不大,真正的差距在易用性和功能特性上。
真实性能数据
| 场景 | 速度 | 说明 |
|---|---|---|
| 短文本生成(8K上下文) | 22-26 tokens/s | Q4_K_M量化 |
| RTX 4090 + vLLM | 约35 tokens/s | GPTQ-Int4量化 |
| Mac M系列 | 约18 tokens/s | Metal加速 |
| 预填充速度(prefill) | 约200-250 tokens/s | 通常是生成速度的10倍 |
我们用相同的提示词和参数设置,在三个工具上分别测试推理速度。单位是"tokens/秒",即每秒能生成多少个token。
在RTX 4090 24G 硬件测试结果:

**数据说明:**测试使用短对话场景(输入约50 tokens,输出约200 tokens)。llama.cpp以微弱优势领先,这是因为它没有任何中间层开销,直接调用底层算子。Ollama和LM Studio差距很小,主要差异在于接口封装层的开销。
**显存要求:**Qwen3.6-27B Q4量化约需18GB显存,Q6量化约需22GB。RTX 4090(24GB)刚好够用,16GB显卡建议选择更小的模型。
27B模型不同量化级别的显存需求
不同场景选型
需要 API 集成 / 自动化脚本
选 Ollama。
Ollama 的核心优势是 API 兼容性。它模拟 OpenAI 格式,可以直接替换现有代码中的 API 地址:
# 启动服务
ollama serve
# 调用方式
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "qwen3.6:27b", "messages": [...]}'
Python 调用也只需要改个 base_url:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama"
)
response = client.chat.completions.create(
model="qwen3.6:27b",
messages=[{"role": "user", "content": "你好"}]
)
只是想快速体验 / 不熟悉命令行
选 LM Studio。
下载安装包,运行,搜索模型,点击下载,加载使用。全程图形界面,不需要记忆任何命令。
它也支持本地 API 服务,开启后地址是 localhost:1234。
追求极致性能 / 需要深度调优
选 llama.cpp。
llama.cpp 提供最完整的参数控制选项,可以精细调节 GPU 卸载层数、KV Cache 大小、批处理参数等。
# 编译(需要 CMake + CUDA)
mkdir build && cd build
cmake .. -DLLAMA_CUBLAS=ON
cmake --build . --config Release
# 运行
./build/bin/llama-cli -m model.gguf -ngl 99 -c 8192
关键参数说明:
| 参数 | 作用 | 推荐值 |
|---|---|---|
| -ngl / --n-gpu-layers | GPU 加载层数 | 99(全部加载) |
| -c / --ctx-size | 上下文长度 | 8192-16384 |
| -t / --threads | CPU 线程数 | 物理核心数 |
| -b / --batch-size | 批处理大小 | 512 |
实测对比
在相同硬件条件下,三者速度差异很小(差距在5%以内),主要原因:
-
Ollama 和 LM Studio 底层都调用 llama.cpp
-
接口层的额外开销很小
-
真正的瓶颈在 GPU 计算和显存带宽
差异主要体现在:
| 对比项 | Ollama | LM Studio | llama.cpp |
|---|---|---|---|
| 首次启动 | 快(有缓存) | 中等 | 最慢 |
| 二次启动 | 极快(~5秒) | 快(~8秒) | 慢(需重新加载) |
| 参数调节 | 中等 | 图形滑块 | 最灵活(50+参数) |
| API 兼容性 | OpenAI 兼容 | OpenAI 兼容 | 需开启 llama-server |
| 资源占用 | 中等 | 较高(含 UI) | 最低 |
部署步骤
Ollama(推荐新手)

# 安装
curl -fsSL https://ollama.com/install.sh | sh
# 运行模型
ollama run qwen3.6:27b
# 后台启动 API 服务
ollama serve
LM Studio
-
安装后打开,在左侧搜索 qwen3.6-27b
-
选择 Q4_K_M 版本下载
-
点击加载,然后就可以在界面聊天或开启 API
llama.cpp
# 下载模型(需 HuggingFace)
huggingface-cli download Qwen/Qwen3.6-27B-GGUF
# 或用 ModelScope
modelscope download --model Qwen/Qwen3.6-27B-GGUF
# 编译后运行
./build/bin/llama-cli -m Qwen3.6-27B-Q4_K_M.gguf -ngl 99
常见问题
Q:16GB 显存能跑吗?
A:Q4_K_M 量化版本约需18GB,建议至少20GB显存的显卡(如 RTX 3090、RTX 4070 Ti Super)。16GB 建议选择 Qwen3.5-9B 或更小的模型。
Q:内存要多大?
A:建议 32GB 以上。模型加载后显存约 18GB,系统和其他程序也需要内存。
Q:Mac 能跑吗?
A:M 系列芯片可以,但速度较慢(~18 t/s)。需要 32GB 以上统一内存。建议选择 9B 或 14B 或27B 量化版本模型体验。
经验总结
三者底层性能相近,选择依据主要是使用场景:
-
开发集成 / 服务器部署 → Ollama
-
快速体验 / 图形界面 → LM Studio
-
极致调优 / 嵌入式集成 → llama.cpp
回到最初的问题:这三个工具到底选哪个?
我的建议是新手从LM Studio开始,体验一下本地跑大模型是什么感觉。等熟悉了,想要自动化或者深度调优,再切换到Ollama。如果你是开发者,需要集成到生产环境,Ollama是最稳妥的选择。llama.cpp则适合那些对性能有极致追求、愿意花时间折腾的用户。
对于Qwen3.6-27B这个模型,24GB显存的RTX 4090是最低门槛。如果你的显卡更小(比如16GB的RTX 4060或3060),建议选择更小的模型,比如Qwen3.5-9B或者4B版本。
大模型本地部署的核心目的是保护隐私和离线使用,没必要为了追求大模型而忽略实际体验。适合自己的,才是最好的。