Ollama 本地大模型部署实战:常用指令与避坑指南

Ollama 本地大模型部署实战:常用指令与避坑指南

以 RTX 5070 Ti Laptop (12GB) + 32GB 内存为例,记录部署 Qwen2.5-Coder 和 DeepSeek-Coder 的全过程


📌 写在前面

本地部署 AI 编程助手已成为开发者的新常态。本文基于真实硬件环境(NVIDIA GeForce RTX 5070 Ti Laptop 12GB 显存,32GB 内存),记录使用 Ollama 下载、运行、管理多个代码大模型的常用指令,以及遇到的典型错误和解决方案。

无论你是想尝试 Qwen2.5-Coder 还是 DeepSeek-Coder,这篇博客都能帮你快速上手。


🛠 环境信息

项目 详情
操作系统 Windows 11 64位
GPU NVIDIA GeForce RTX 5070 Ti Laptop (12GB 显存)
驱动版本 591.44 (CUDA 13.1)
Ollama 版本 0.20.0
实际可用显存 ~11.9 GB (系统预留约 300 MB)

📦 一、模型管理指令

1.1 查看已下载的模型

cmd 复制代码
ollama list

1.2 查看正在运行的模型(实时状态)

cmd 复制代码
ollama ps

输出示例

复制代码
NAME                           ID              SIZE     PROCESSOR          CONTEXT    UNTIL
deepseek-coder:33b-instruct    acec7c0b0fd9    24 GB    55%/45% CPU/GPU    16384      2 minutes from now
  • PROCESSOR 列显示模型在 GPU/CPU 之间的分配比例,比例越偏向 GPU 速度越快。
  • CONTEXT 是当前上下文长度,数值越大越占显存。

1.3 下载模型(拉取)

cmd 复制代码
ollama pull <模型名>:<标签>

例如:

cmd 复制代码
ollama pull qwen2.5-coder:14b
ollama pull deepseek-coder:33b-instruct

1.4 运行模型(下载+自动运行)

cmd 复制代码
ollama run <模型名>

若模型尚未下载,会先拉取再进入对话界面(>>> 提示符)。

1.5 停止正在运行的模型

cmd 复制代码
ollama stop <模型名>

注意:需要先退出模型对话(输入 /bye 或按 Ctrl+D)才能执行 stop 命令。


💬 二、交互式对话中的常用指令

进入 >>> 提示符后:

指令 作用
/bye 退出当前模型对话,回到系统命令行
Ctrl + D 同上(Windows 下可能无效,建议使用 /bye
/?/help 查看所有交互命令
普通文本 发送给模型进行推理

典型错误 :在 >>> 下直接输入 ollama stop ...,模型会将其当作普通对话内容回复,而不是执行命令。


🐛 三、常见错误与解决方法

3.1 Error: 500 Internal Server Error: llama runner process has terminated

原因

  • 模型太大,显存/内存不足,导致推理进程崩溃。
  • 例如 deepseek-coder:33b-instruct 需要 ~24GB 总内存/显存,而你的 GPU 只有 12GB,即使部分卸载到内存也容易崩溃。

解决方法

  1. 使用更小的模型(如 qwen2.5-coder:7b14b)。

  2. 强制只使用 CPU(速度极慢,仅用于测试):

    cmd 复制代码
    set OLLAMA_LOAD_IN_GPU=false
    ollama run <模型名>
  3. 降低上下文长度:

    cmd 复制代码
    ollama run <模型名> --num-ctx 512

3.2 模型下载成功,但运行时无响应或卡死

排查步骤

  1. 打开另一个 CMD,运行 nvidia-smi 查看显存是否被占满。
  2. 运行 ollama ps 确认模型状态。
  3. 关闭其他占用显存的程序(浏览器、IDE、游戏等)。
  4. 重启 Ollama 服务(任务管理器结束所有 ollama.exe 进程后重新运行)。

3.3 无法停止模型(ollama stop 无效)

原因:模型进程可能已僵死。

解决方法

  • 打开任务管理器 → 详细信息 → 结束所有 ollama.exeollama_llama_server.exe 进程。
  • 或者重启电脑。

3.4 运行 ollama run 时提示 "pulling manifest" 但一直卡住

可能原因:网络问题或镜像源慢。

解决方法

  • 使用代理,并设置环境变量:

    cmd 复制代码
    set HTTP_PROXY=http://127.0.0.1:7890
    set HTTPS_PROXY=http://127.0.0.1:7890
  • 更换 Ollama 镜像源(国内用户可尝试设置 OLLAMA_HOST=...)。


📊 四、实战:我的模型运行对比

模型 显存占用 总占用 (显存+内存) 流畅度 能否运行
qwen2.5-coder:14b (Q4) ~9.5 GB ~10 GB ✅ 丝滑 (20-50 token/s)
deepseek-coder:33b-instruct (Q4) ~10.8 GB (45%) 24 GB (55% CPU) ❌ 严重卡顿 (0.5-2 token/s) 勉强能跑,体验差
qwen2.5-coder:7b (Q4) ~5 GB ~5.5 GB ✅ 极速 (50-80 token/s)

结论 :对于 12GB 显存的笔记本,Qwen2.5-Coder-14B 是最佳选择 ------ 既能跑满 GPU,又有足够强的代码能力。


🔧 五、高级调试技巧

5.1 开启详细日志

cmd 复制代码
set OLLAMA_DEBUG=1
ollama run <模型名>

会输出 llama.cpp 的详细加载信息,帮助定位显存分配失败等问题。

5.2 查看模型详细信息

cmd 复制代码
ollama show <模型名>

输出包括模型大小、量化类型、父模型、参数规模等。

5.3 手动指定 GPU 层数(高级)

cmd 复制代码
set OLLAMA_GPU_LAYERS=35
ollama run <模型名> --num-ctx 2048
  • 用于强迫 Ollama 将更多层加载到 GPU,可能解决部分 OOM 问题。
  • 设置过高会导致 cuda out of memory,需逐步调低。

💎 六、总结

场景 推荐指令/操作
日常编程助手 ollama run qwen2.5-coder:14b
想试试更强模型但硬件有限 改用云端 API (如 DeepSeek API)
显存不足时 降低 --num-ctx 或换 7B 模型
模型卡死无法停止 任务管理器强制结束 ollama 进程
查看当前运行状态 ollama psnvidia-smi

本地部署 AI 编程模型是一个"硬件与体验"的平衡艺术。不要盲目追求大参数,适合自己的硬件、能流畅运行、满足日常需求的模型,才是最好的

希望这篇实战记录能帮你少走弯路。如果你也有自己的踩坑经验,欢迎留言交流!


附录:本文使用的所有命令一览

cmd 复制代码
ollama -v                         # 查看版本
ollama list                       # 已下载模型
ollama ps                         # 正在运行的模型
ollama pull qwen2.5-coder:14b     # 下载模型
ollama run qwen2.5-coder:14b      # 运行并进入对话
/bye                              # 退出对话
ollama stop qwen2.5-coder:14b     # 停止后台模型
set OLLAMA_DEBUG=1                # 开启调试日志
ollama show deepseek-coder:33b-instruct  # 查看模型详情
nvidia-smi                        # 查看 GPU 显存占用

最后更新:2026-04-04
测试环境:Windows 11 + Ollama 0.20.0 + NVIDIA Driver 591.44

相关推荐
Thomas.Sir16 小时前
第十二章:RAG知识库开发之【RAG的预检索和后检索:核心优化策略与实践】
人工智能·python·ai·rag·预检索·后检索
俊哥V16 小时前
每日 AI 研究简报 · 2026-04-04
人工智能·ai
AI自动化工坊16 小时前
Claw Code技术深度解析:Python+Rust混合架构的设计与实现
开发语言·人工智能·python·ai·架构·rust·开源
种时光的人16 小时前
Spring AI 工具调用(ToolCalling)完整使用教程
java·人工智能·后端·spring·ai·java开发·spring ai
ATMQuant16 小时前
量化指标解码17:SMC聪明钱概念之公允价值缺口
ai·量化交易·交易系统·vnpy
Flittly1 天前
【SpringAIAlibaba新手村系列】(11)Embedding 向量化与向量数据库
java·笔记·spring·ai·springboot
GEO索引未来1 天前
一文说清2026年GPT 卖货两种方式
人工智能·gpt·ai·chatgpt
小哈里1 天前
【Agent】MCP协议介绍、MCP Server服务端开发与 Skills技能编写
ai·agent·mcp·mcp server·skills
菩提小狗1 天前
每日极客日报 · 2026年04月03日 · 2026-04-03
ai·开源·极客日报·it热点·技术资讯