Ollama 本地大模型部署实战:常用指令与避坑指南

Ollama 本地大模型部署实战:常用指令与避坑指南

以 RTX 5070 Ti Laptop (12GB) + 32GB 内存为例,记录部署 Qwen2.5-Coder 和 DeepSeek-Coder 的全过程


📌 写在前面

本地部署 AI 编程助手已成为开发者的新常态。本文基于真实硬件环境(NVIDIA GeForce RTX 5070 Ti Laptop 12GB 显存,32GB 内存),记录使用 Ollama 下载、运行、管理多个代码大模型的常用指令,以及遇到的典型错误和解决方案。

无论你是想尝试 Qwen2.5-Coder 还是 DeepSeek-Coder,这篇博客都能帮你快速上手。


🛠 环境信息

项目 详情
操作系统 Windows 11 64位
GPU NVIDIA GeForce RTX 5070 Ti Laptop (12GB 显存)
驱动版本 591.44 (CUDA 13.1)
Ollama 版本 0.20.0
实际可用显存 ~11.9 GB (系统预留约 300 MB)

📦 一、模型管理指令

1.1 查看已下载的模型

cmd 复制代码
ollama list

1.2 查看正在运行的模型(实时状态)

cmd 复制代码
ollama ps

输出示例

复制代码
NAME                           ID              SIZE     PROCESSOR          CONTEXT    UNTIL
deepseek-coder:33b-instruct    acec7c0b0fd9    24 GB    55%/45% CPU/GPU    16384      2 minutes from now
  • PROCESSOR 列显示模型在 GPU/CPU 之间的分配比例,比例越偏向 GPU 速度越快。
  • CONTEXT 是当前上下文长度,数值越大越占显存。

1.3 下载模型(拉取)

cmd 复制代码
ollama pull <模型名>:<标签>

例如:

cmd 复制代码
ollama pull qwen2.5-coder:14b
ollama pull deepseek-coder:33b-instruct

1.4 运行模型(下载+自动运行)

cmd 复制代码
ollama run <模型名>

若模型尚未下载,会先拉取再进入对话界面(>>> 提示符)。

1.5 停止正在运行的模型

cmd 复制代码
ollama stop <模型名>

注意:需要先退出模型对话(输入 /bye 或按 Ctrl+D)才能执行 stop 命令。


💬 二、交互式对话中的常用指令

进入 >>> 提示符后:

指令 作用
/bye 退出当前模型对话,回到系统命令行
Ctrl + D 同上(Windows 下可能无效,建议使用 /bye
/?/help 查看所有交互命令
普通文本 发送给模型进行推理

典型错误 :在 >>> 下直接输入 ollama stop ...,模型会将其当作普通对话内容回复,而不是执行命令。


🐛 三、常见错误与解决方法

3.1 Error: 500 Internal Server Error: llama runner process has terminated

原因

  • 模型太大,显存/内存不足,导致推理进程崩溃。
  • 例如 deepseek-coder:33b-instruct 需要 ~24GB 总内存/显存,而你的 GPU 只有 12GB,即使部分卸载到内存也容易崩溃。

解决方法

  1. 使用更小的模型(如 qwen2.5-coder:7b14b)。

  2. 强制只使用 CPU(速度极慢,仅用于测试):

    cmd 复制代码
    set OLLAMA_LOAD_IN_GPU=false
    ollama run <模型名>
  3. 降低上下文长度:

    cmd 复制代码
    ollama run <模型名> --num-ctx 512

3.2 模型下载成功,但运行时无响应或卡死

排查步骤

  1. 打开另一个 CMD,运行 nvidia-smi 查看显存是否被占满。
  2. 运行 ollama ps 确认模型状态。
  3. 关闭其他占用显存的程序(浏览器、IDE、游戏等)。
  4. 重启 Ollama 服务(任务管理器结束所有 ollama.exe 进程后重新运行)。

3.3 无法停止模型(ollama stop 无效)

原因:模型进程可能已僵死。

解决方法

  • 打开任务管理器 → 详细信息 → 结束所有 ollama.exeollama_llama_server.exe 进程。
  • 或者重启电脑。

3.4 运行 ollama run 时提示 "pulling manifest" 但一直卡住

可能原因:网络问题或镜像源慢。

解决方法

  • 使用代理,并设置环境变量:

    cmd 复制代码
    set HTTP_PROXY=http://127.0.0.1:7890
    set HTTPS_PROXY=http://127.0.0.1:7890
  • 更换 Ollama 镜像源(国内用户可尝试设置 OLLAMA_HOST=...)。


📊 四、实战:我的模型运行对比

模型 显存占用 总占用 (显存+内存) 流畅度 能否运行
qwen2.5-coder:14b (Q4) ~9.5 GB ~10 GB ✅ 丝滑 (20-50 token/s)
deepseek-coder:33b-instruct (Q4) ~10.8 GB (45%) 24 GB (55% CPU) ❌ 严重卡顿 (0.5-2 token/s) 勉强能跑,体验差
qwen2.5-coder:7b (Q4) ~5 GB ~5.5 GB ✅ 极速 (50-80 token/s)

结论 :对于 12GB 显存的笔记本,Qwen2.5-Coder-14B 是最佳选择 ------ 既能跑满 GPU,又有足够强的代码能力。


🔧 五、高级调试技巧

5.1 开启详细日志

cmd 复制代码
set OLLAMA_DEBUG=1
ollama run <模型名>

会输出 llama.cpp 的详细加载信息,帮助定位显存分配失败等问题。

5.2 查看模型详细信息

cmd 复制代码
ollama show <模型名>

输出包括模型大小、量化类型、父模型、参数规模等。

5.3 手动指定 GPU 层数(高级)

cmd 复制代码
set OLLAMA_GPU_LAYERS=35
ollama run <模型名> --num-ctx 2048
  • 用于强迫 Ollama 将更多层加载到 GPU,可能解决部分 OOM 问题。
  • 设置过高会导致 cuda out of memory,需逐步调低。

💎 六、总结

场景 推荐指令/操作
日常编程助手 ollama run qwen2.5-coder:14b
想试试更强模型但硬件有限 改用云端 API (如 DeepSeek API)
显存不足时 降低 --num-ctx 或换 7B 模型
模型卡死无法停止 任务管理器强制结束 ollama 进程
查看当前运行状态 ollama psnvidia-smi

本地部署 AI 编程模型是一个"硬件与体验"的平衡艺术。不要盲目追求大参数,适合自己的硬件、能流畅运行、满足日常需求的模型,才是最好的

希望这篇实战记录能帮你少走弯路。如果你也有自己的踩坑经验,欢迎留言交流!


附录:本文使用的所有命令一览

cmd 复制代码
ollama -v                         # 查看版本
ollama list                       # 已下载模型
ollama ps                         # 正在运行的模型
ollama pull qwen2.5-coder:14b     # 下载模型
ollama run qwen2.5-coder:14b      # 运行并进入对话
/bye                              # 退出对话
ollama stop qwen2.5-coder:14b     # 停止后台模型
set OLLAMA_DEBUG=1                # 开启调试日志
ollama show deepseek-coder:33b-instruct  # 查看模型详情
nvidia-smi                        # 查看 GPU 显存占用

最后更新:2026-04-04
测试环境:Windows 11 + Ollama 0.20.0 + NVIDIA Driver 591.44

相关推荐
Huang2601088 分钟前
Twitter 用户信息 API 集成指南
ai
Jiangxl~23 分钟前
IP数据云如何为不同行业提供精准IP查询与风险防控解决方案?
网络·网络协议·tcp/ip·算法·ai·ip·安全架构
程序员鱼皮1 小时前
DeepSeek V4 + GPT-5.5 一手实战,结果很意外!附 Codex 保姆级项目教程
ai·程序员·编程·ai编程·deepseek
熊猫钓鱼>_>1 小时前
AR游戏的“轻”与“深”:当智能体接管眼镜,游戏逻辑正在发生什么变化?
人工智能·游戏·ai·ar·vr·game·智能体
索西引擎2 小时前
【实践】Ollama 本地大模型和云端模型的安装使用
ai
MClink2 小时前
Claude Code 和 Claude Desktop:一个搞清两个 AI 助手
ai
Luhui Dev2 小时前
高频使用 GPT-5.5 两天后的总结
ai·agent·luhuidev
LcGero3 小时前
移动端AI OCR模型选型
人工智能·ai·ocr
学术头条4 小时前
Springer Nature直播预告 | 无人系统集群协同与工程挑战
人工智能·科技·机器学习·ai·agi
龙侠九重天4 小时前
OpenClaw 与 Hermes 有何异同?——从系统架构到用户体验的全面对比
人工智能·ai·系统架构·大模型·llm·openclaw·hermes