本地部署大模型避坑实录|Ollama+AnythingLLM 一直加载、CPU 爆满、GPU 闲置问题完整解决

本地部署大模型避坑实录|Ollama+AnythingLLM 一直加载、CPU 爆满、GPU 闲置问题完整解决

        • 前言
        • 一、问题现象描述
        • [二、第一个坑:端口 11434 被占用](#二、第一个坑:端口 11434 被占用)
        • [三、第二个坑:回复巨慢,CPU 满载、GPU 闲置](#三、第二个坑:回复巨慢,CPU 满载、GPU 闲置)
        • [四、排查尝试:环境变量与手动安装 CUDA 均无效](#四、排查尝试:环境变量与手动安装 CUDA 均无效)
        • [五、关键排查:nvidia-smi 报错与驱动真相](#五、关键排查:nvidia-smi 报错与驱动真相)
        • [六、最终解决方案:更换 NVIDIA Studio 驱动](#六、最终解决方案:更换 NVIDIA Studio 驱动)
        • [七、最终成功:GPU 正常加速](#七、最终成功:GPU 正常加速)
        • 八、总结(干货速查)

前言

最近在本地搭建 Ollama + AnythingLLM 大模型运行环境,本以为流程很简单,结果接连遇到 界面无限加载、回复极慢、CPU 跑满 GPU 闲置 等问题。折腾许久才彻底解决,期间还踩了手动安装 CUDA 和驱动报错的坑。

一、问题现象描述

硬件环境

  • CPU:i7-8700K
  • 内存:32GB
  • 显卡:NVIDIA RTX 2060 6GB
  • 软件:Ollama + AnythingLLM

初始异常表现

  1. AnythingLLM 发送"你好"后一直加载,无任何回复
  2. 但直接在 Ollama 终端对话 可以正常回复
  3. 后续能回复后,速度极慢(几秒蹦一个字)
  4. 任务管理器中 CPU 占用拉满,GPU 纹丝不动
二、第一个坑:端口 11434 被占用

排查过程中,我手动执行服务启动命令:

bash 复制代码
ollama serve

直接报错:

复制代码
Error: listen tcp 127.0.0.1:11434: bind: Only one usage of each socket address (protocol/network address/port) is normally permitted.

问题原因

Ollama 安装后会自动在后台运行服务 ,再次手动执行 ollama serve 导致端口冲突。

解决方法

bash 复制代码
taskkill /f /im ollama.exe

关闭所有 Ollama 进程后,端口占用问题解决,AnythingLLM 可以正常收发消息。

三、第二个坑:回复巨慢,CPU 满载、GPU 闲置

端口问题解决后,虽然能回复,但速度极其缓慢。

打开任务管理器发现:

  • CPU 占用接近 100%
  • GPU 显存与利用率几乎为 0

明显是模型没有调用 GPU,完全在 CPU 上推理,导致性能严重不足。

四、排查尝试:环境变量与手动安装 CUDA 均无效

为了解决 GPU 不调用的问题,我尝试了网上常见的两种方法,但都失败了:

  1. 设置环境变量无效

    配置了 OLLAMA_CUDA=1 等变量,重启后问题依旧。

  2. 手动安装 CUDA Toolkit 无效

    我怀疑是系统缺少 CUDA 库,于是下载并安装了 cuda_13.2.0_windows_network
    结果:安装过程顺利,但重启后 Ollama 依然无法识别显卡,速度没有提升。

结论 :Ollama 在 Windows 下通常自带所需的 CUDA 库,不需要 用户手动安装 CUDA Toolkit。问题不在于缺库,而在于显卡驱动本身

五、关键排查:nvidia-smi 报错与驱动真相

为了进一步确认显卡状态,我执行了命令:

bash 复制代码
nvidia-smi

意外发现

终端报错 Failed to initialize NVML: Unknown Error

原因分析

  • 虽然电脑之前一直在玩游戏,看似驱动正常,但安装的是 Game Ready 游戏驱动
  • 这种驱动对 AI 推理场景(CUDA 计算)的兼容性较差,甚至会导致 NVML 初始化失败,使得 Ollama 无法检测到显卡。
  • 之前手动安装 CUDA Toolkit 无效,正是因为底层驱动(Driver)本身就不支持或存在冲突。
六、最终解决方案:更换 NVIDIA Studio 驱动

既然 Game Ready 驱动不行,必须更换为面向创作和计算的 NVIDIA Studio 驱动

操作步骤

  1. 前往 NVIDIA 官网驱动下载页面。
  2. 产品类型选择 Studio 驱动(而非 Game Ready)。
  3. 安装时选择 自定义安装 + 勾选"执行清洁安装"(这一步很重要,能清除旧驱动残留)。
  4. 安装完成后重启电脑。
七、最终成功:GPU 正常加速

重启后再次验证:

  1. 检查驱动状态 :执行 nvidia-smi,不再报错,成功显示显卡信息。

  2. 检查 Ollama 日志 :执行 ollama serve,日志中出现:

    复制代码
    inference compute: CUDA
    name: NVIDIA GeForce RTX 2060
    total_vram: 6.0 GiB

    表示 GPU 已被正常识别并启用 CUDA 加速

  3. 实测效果

    • AnythingLLM 发送消息秒回
    • CPU 占用率恢复正常(个位数)。
    • GPU 利用率跑满,显存被占用。
八、总结(干货速查)
  1. AnythingLLM 一直加载

    → 端口 11434 被占用,执行 taskkill /f /im ollama.exe 即可。

  2. 模型回复慢、CPU 跑满、GPU 闲置

    → Ollama 未识别显卡,强制使用 CPU 推理。

  3. 手动安装 CUDA Toolkit 无效

    → Ollama 自带 CUDA 库,不需要手动装。根本原因通常是显卡驱动不匹配

  4. nvidia-smi 报错或 Ollama 不识别显卡

    → 即使玩游戏正常,也请将 Game Ready 驱动 更换为 NVIDIA Studio 驱动,并进行清洁安装。

  5. 判断是否成功启用 GPU

    → 运行 ollama serve,日志出现 CUDA + 显卡型号即成功。


希望这个版本能帮到更多遇到同样问题的人!

相关推荐
我命由我123453 小时前
Windows 操作系统 - Windows 查看架构类型
运维·windows·笔记·学习·系统架构·运维开发·系统
金蕊泛流霞3 小时前
dify安装教程
笔记
IOT.FIVE.NO.14 小时前
Codex Skill 内部结构解析:从 SKILL.md 到 scripts、references、assets
前端·javascript·人工智能·笔记·html
AI精钢5 小时前
把 Markdown 笔记变成可问答的知识图谱:本地 Graph RAG 工具 Kwipu 实测
人工智能·笔记·python·aigc·知识图谱
kobesdu5 小时前
【ROS2实战笔记-15】ros2bag 的深度应用:从数据回放到系统级离线分析
人工智能·笔记·移动机器人·ros2
晓梦林5 小时前
Loooower靶场学习笔记
笔记·学习·安全·web安全
我命由我123456 小时前
前端开发概念 - 无障碍树
javascript·css·笔记·学习·html·html5·js
沉浸式学习ing8 小时前
网课视频里的PPT怎么提取?视频转图文讲义的实操教程
笔记·ai·aigc·学习方法·视频·ppt
今儿敲了吗9 小时前
链表篇(一)——合并两个有序链表
数据结构·笔记·算法·链表