Ollama 本地大模型部署实战：常用指令与避坑指南

以 RTX 5070 Ti Laptop (12GB) + 32GB 内存为例，记录部署 Qwen2.5-Coder 和 DeepSeek-Coder 的全过程

📌 写在前面

本地部署 AI 编程助手已成为开发者的新常态。本文基于真实硬件环境（NVIDIA GeForce RTX 5070 Ti Laptop 12GB 显存，32GB 内存），记录使用 Ollama 下载、运行、管理多个代码大模型的常用指令，以及遇到的典型错误和解决方案。

无论你是想尝试 Qwen2.5-Coder 还是 DeepSeek-Coder，这篇博客都能帮你快速上手。

🛠 环境信息

项目	详情
操作系统	Windows 11 64位
GPU	NVIDIA GeForce RTX 5070 Ti Laptop (12GB 显存)
驱动版本	591.44 (CUDA 13.1)
Ollama 版本	0.20.0
实际可用显存	~11.9 GB (系统预留约 300 MB)

📦 一、模型管理指令

1.1 查看已下载的模型

cmd 复制代码

ollama list

1.2 查看正在运行的模型（实时状态）

cmd 复制代码

ollama ps

输出示例：

复制代码

NAME                           ID              SIZE     PROCESSOR          CONTEXT    UNTIL
deepseek-coder:33b-instruct    acec7c0b0fd9    24 GB    55%/45% CPU/GPU    16384      2 minutes from now

PROCESSOR 列显示模型在 GPU/CPU 之间的分配比例，比例越偏向 GPU 速度越快。
CONTEXT 是当前上下文长度，数值越大越占显存。

1.3 下载模型（拉取）

cmd 复制代码

ollama pull <模型名>:<标签>

例如：

cmd 复制代码

ollama pull qwen2.5-coder:14b
ollama pull deepseek-coder:33b-instruct

1.4 运行模型（下载+自动运行）

cmd 复制代码

ollama run <模型名>

若模型尚未下载，会先拉取再进入对话界面（>>> 提示符）。

1.5 停止正在运行的模型

cmd 复制代码

ollama stop <模型名>

注意：需要先退出模型对话（输入 /bye 或按 Ctrl+D）才能执行 stop 命令。

💬 二、交互式对话中的常用指令

进入 >>> 提示符后：

指令	作用
`/bye`	退出当前模型对话，回到系统命令行
`Ctrl + D`	同上（Windows 下可能无效，建议使用 `/bye`）
`/?` 或 `/help`	查看所有交互命令
普通文本	发送给模型进行推理

典型错误 ：在 >>> 下直接输入 ollama stop ...，模型会将其当作普通对话内容回复，而不是执行命令。

🐛 三、常见错误与解决方法

3.1 `Error: 500 Internal Server Error: llama runner process has terminated`

原因：

模型太大，显存/内存不足，导致推理进程崩溃。
例如 deepseek-coder:33b-instruct 需要 ~24GB 总内存/显存，而你的 GPU 只有 12GB，即使部分卸载到内存也容易崩溃。

解决方法：

使用更小的模型（如 qwen2.5-coder:7b 或 14b）。
强制只使用 CPU（速度极慢，仅用于测试）：
cmd 复制代码
```
set OLLAMA_LOAD_IN_GPU=false
ollama run <模型名>
```
降低上下文长度：
cmd 复制代码
```
ollama run <模型名> --num-ctx 512
```

3.2 模型下载成功，但运行时无响应或卡死

排查步骤：

打开另一个 CMD，运行 nvidia-smi 查看显存是否被占满。
运行 ollama ps 确认模型状态。
关闭其他占用显存的程序（浏览器、IDE、游戏等）。
重启 Ollama 服务（任务管理器结束所有 ollama.exe 进程后重新运行）。

3.3 无法停止模型（`ollama stop` 无效）

原因：模型进程可能已僵死。

解决方法：

打开任务管理器 → 详细信息 → 结束所有 ollama.exe 和 ollama_llama_server.exe 进程。
或者重启电脑。

3.4 运行 `ollama run` 时提示 "pulling manifest" 但一直卡住

可能原因：网络问题或镜像源慢。

解决方法：

使用代理，并设置环境变量：

cmd 复制代码

set HTTP_PROXY=http://127.0.0.1:7890
set HTTPS_PROXY=http://127.0.0.1:7890

更换 Ollama 镜像源（国内用户可尝试设置 OLLAMA_HOST=...）。

📊 四、实战：我的模型运行对比

模型	显存占用	总占用 (显存+内存)	流畅度	能否运行
`qwen2.5-coder:14b` (Q4)	~9.5 GB	~10 GB	✅ 丝滑 (20-50 token/s)	是
`deepseek-coder:33b-instruct` (Q4)	~10.8 GB (45%)	24 GB (55% CPU)	❌ 严重卡顿 (0.5-2 token/s)	勉强能跑，体验差
`qwen2.5-coder:7b` (Q4)	~5 GB	~5.5 GB	✅ 极速 (50-80 token/s)	是

结论：对于 12GB 显存的笔记本，Qwen2.5-Coder-14B 是最佳选择 ------ 既能跑满 GPU，又有足够强的代码能力。

🔧 五、高级调试技巧

5.1 开启详细日志

cmd 复制代码

set OLLAMA_DEBUG=1
ollama run <模型名>

会输出 llama.cpp 的详细加载信息，帮助定位显存分配失败等问题。

5.2 查看模型详细信息

cmd 复制代码

ollama show <模型名>

输出包括模型大小、量化类型、父模型、参数规模等。

5.3 手动指定 GPU 层数（高级）

cmd 复制代码

set OLLAMA_GPU_LAYERS=35
ollama run <模型名> --num-ctx 2048

用于强迫 Ollama 将更多层加载到 GPU，可能解决部分 OOM 问题。
设置过高会导致 cuda out of memory，需逐步调低。

💎 六、总结

场景	推荐指令/操作
日常编程助手	`ollama run qwen2.5-coder:14b`
想试试更强模型但硬件有限	改用云端 API (如 DeepSeek API)
显存不足时	降低 `--num-ctx` 或换 7B 模型
模型卡死无法停止	任务管理器强制结束 ollama 进程
查看当前运行状态	`ollama ps` 和 `nvidia-smi`

本地部署 AI 编程模型是一个"硬件与体验"的平衡艺术。不要盲目追求大参数，适合自己的硬件、能流畅运行、满足日常需求的模型，才是最好的。

希望这篇实战记录能帮你少走弯路。如果你也有自己的踩坑经验，欢迎留言交流！

附录：本文使用的所有命令一览

cmd 复制代码

ollama -v                         # 查看版本
ollama list                       # 已下载模型
ollama ps                         # 正在运行的模型
ollama pull qwen2.5-coder:14b     # 下载模型
ollama run qwen2.5-coder:14b      # 运行并进入对话
/bye                              # 退出对话
ollama stop qwen2.5-coder:14b     # 停止后台模型
set OLLAMA_DEBUG=1                # 开启调试日志
ollama show deepseek-coder:33b-instruct  # 查看模型详情
nvidia-smi                        # 查看 GPU 显存占用

最后更新：2026-04-04
测试环境：Windows 11 + Ollama 0.20.0 + NVIDIA Driver 591.44

Ollama 本地大模型部署实战：常用指令与避坑指南