Ollama 本地大模型部署实战:常用指令与避坑指南
以 RTX 5070 Ti Laptop (12GB) + 32GB 内存为例,记录部署 Qwen2.5-Coder 和 DeepSeek-Coder 的全过程
📌 写在前面
本地部署 AI 编程助手已成为开发者的新常态。本文基于真实硬件环境(NVIDIA GeForce RTX 5070 Ti Laptop 12GB 显存,32GB 内存),记录使用 Ollama 下载、运行、管理多个代码大模型的常用指令,以及遇到的典型错误和解决方案。
无论你是想尝试 Qwen2.5-Coder 还是 DeepSeek-Coder,这篇博客都能帮你快速上手。
🛠 环境信息
| 项目 | 详情 |
|---|---|
| 操作系统 | Windows 11 64位 |
| GPU | NVIDIA GeForce RTX 5070 Ti Laptop (12GB 显存) |
| 驱动版本 | 591.44 (CUDA 13.1) |
| Ollama 版本 | 0.20.0 |
| 实际可用显存 | ~11.9 GB (系统预留约 300 MB) |
📦 一、模型管理指令
1.1 查看已下载的模型
cmd
ollama list
1.2 查看正在运行的模型(实时状态)
cmd
ollama ps
输出示例:
NAME ID SIZE PROCESSOR CONTEXT UNTIL
deepseek-coder:33b-instruct acec7c0b0fd9 24 GB 55%/45% CPU/GPU 16384 2 minutes from now
PROCESSOR列显示模型在 GPU/CPU 之间的分配比例,比例越偏向 GPU 速度越快。CONTEXT是当前上下文长度,数值越大越占显存。
1.3 下载模型(拉取)
cmd
ollama pull <模型名>:<标签>
例如:
cmd
ollama pull qwen2.5-coder:14b
ollama pull deepseek-coder:33b-instruct
1.4 运行模型(下载+自动运行)
cmd
ollama run <模型名>
若模型尚未下载,会先拉取再进入对话界面(>>> 提示符)。
1.5 停止正在运行的模型
cmd
ollama stop <模型名>
注意:需要先退出模型对话(输入 /bye 或按 Ctrl+D)才能执行 stop 命令。
💬 二、交互式对话中的常用指令
进入 >>> 提示符后:
| 指令 | 作用 |
|---|---|
/bye |
退出当前模型对话,回到系统命令行 |
Ctrl + D |
同上(Windows 下可能无效,建议使用 /bye) |
/? 或 /help |
查看所有交互命令 |
| 普通文本 | 发送给模型进行推理 |
典型错误 :在 >>> 下直接输入 ollama stop ...,模型会将其当作普通对话内容回复,而不是执行命令。
🐛 三、常见错误与解决方法
3.1 Error: 500 Internal Server Error: llama runner process has terminated
原因:
- 模型太大,显存/内存不足,导致推理进程崩溃。
- 例如
deepseek-coder:33b-instruct需要 ~24GB 总内存/显存,而你的 GPU 只有 12GB,即使部分卸载到内存也容易崩溃。
解决方法:
-
使用更小的模型(如
qwen2.5-coder:7b或14b)。 -
强制只使用 CPU(速度极慢,仅用于测试):
cmdset OLLAMA_LOAD_IN_GPU=false ollama run <模型名> -
降低上下文长度:
cmdollama run <模型名> --num-ctx 512
3.2 模型下载成功,但运行时无响应或卡死
排查步骤:
- 打开另一个 CMD,运行
nvidia-smi查看显存是否被占满。 - 运行
ollama ps确认模型状态。 - 关闭其他占用显存的程序(浏览器、IDE、游戏等)。
- 重启 Ollama 服务(任务管理器结束所有
ollama.exe进程后重新运行)。
3.3 无法停止模型(ollama stop 无效)
原因:模型进程可能已僵死。
解决方法:
- 打开任务管理器 → 详细信息 → 结束所有
ollama.exe和ollama_llama_server.exe进程。 - 或者重启电脑。
3.4 运行 ollama run 时提示 "pulling manifest" 但一直卡住
可能原因:网络问题或镜像源慢。
解决方法:
-
使用代理,并设置环境变量:
cmdset HTTP_PROXY=http://127.0.0.1:7890 set HTTPS_PROXY=http://127.0.0.1:7890 -
更换 Ollama 镜像源(国内用户可尝试设置
OLLAMA_HOST=...)。
📊 四、实战:我的模型运行对比
| 模型 | 显存占用 | 总占用 (显存+内存) | 流畅度 | 能否运行 |
|---|---|---|---|---|
qwen2.5-coder:14b (Q4) |
~9.5 GB | ~10 GB | ✅ 丝滑 (20-50 token/s) | 是 |
deepseek-coder:33b-instruct (Q4) |
~10.8 GB (45%) | 24 GB (55% CPU) | ❌ 严重卡顿 (0.5-2 token/s) | 勉强能跑,体验差 |
qwen2.5-coder:7b (Q4) |
~5 GB | ~5.5 GB | ✅ 极速 (50-80 token/s) | 是 |
结论 :对于 12GB 显存的笔记本,Qwen2.5-Coder-14B 是最佳选择 ------ 既能跑满 GPU,又有足够强的代码能力。
🔧 五、高级调试技巧
5.1 开启详细日志
cmd
set OLLAMA_DEBUG=1
ollama run <模型名>
会输出 llama.cpp 的详细加载信息,帮助定位显存分配失败等问题。
5.2 查看模型详细信息
cmd
ollama show <模型名>
输出包括模型大小、量化类型、父模型、参数规模等。
5.3 手动指定 GPU 层数(高级)
cmd
set OLLAMA_GPU_LAYERS=35
ollama run <模型名> --num-ctx 2048
- 用于强迫 Ollama 将更多层加载到 GPU,可能解决部分 OOM 问题。
- 设置过高会导致
cuda out of memory,需逐步调低。
💎 六、总结
| 场景 | 推荐指令/操作 |
|---|---|
| 日常编程助手 | ollama run qwen2.5-coder:14b |
| 想试试更强模型但硬件有限 | 改用云端 API (如 DeepSeek API) |
| 显存不足时 | 降低 --num-ctx 或换 7B 模型 |
| 模型卡死无法停止 | 任务管理器强制结束 ollama 进程 |
| 查看当前运行状态 | ollama ps 和 nvidia-smi |
本地部署 AI 编程模型是一个"硬件与体验"的平衡艺术。不要盲目追求大参数,适合自己的硬件、能流畅运行、满足日常需求的模型,才是最好的。
希望这篇实战记录能帮你少走弯路。如果你也有自己的踩坑经验,欢迎留言交流!
附录:本文使用的所有命令一览
cmd
ollama -v # 查看版本
ollama list # 已下载模型
ollama ps # 正在运行的模型
ollama pull qwen2.5-coder:14b # 下载模型
ollama run qwen2.5-coder:14b # 运行并进入对话
/bye # 退出对话
ollama stop qwen2.5-coder:14b # 停止后台模型
set OLLAMA_DEBUG=1 # 开启调试日志
ollama show deepseek-coder:33b-instruct # 查看模型详情
nvidia-smi # 查看 GPU 显存占用
最后更新:2026-04-04
测试环境:Windows 11 + Ollama 0.20.0 + NVIDIA Driver 591.44