本地部署大模型避坑实录｜Ollama+AnythingLLM 一直加载、CPU 爆满、GPU 闲置问题完整解决

最近在本地搭建 Ollama + AnythingLLM 大模型运行环境，本以为流程很简单，结果接连遇到 界面无限加载、回复极慢、CPU 跑满 GPU 闲置 等问题。折腾许久才彻底解决，期间还踩了手动安装 CUDA 和驱动报错的坑。

硬件环境

初始异常表现

排查过程中，我手动执行服务启动命令：

bash 复制代码

ollama serve

直接报错：

复制代码

Error: listen tcp 127.0.0.1:11434: bind: Only one usage of each socket address (protocol/network address/port) is normally permitted.

问题原因

Ollama 安装后会自动在后台运行服务 ，再次手动执行 ollama serve 导致端口冲突。

解决方法

bash 复制代码

taskkill /f /im ollama.exe

关闭所有 Ollama 进程后，端口占用问题解决，AnythingLLM 可以正常收发消息。

端口问题解决后，虽然能回复，但速度极其缓慢。

打开任务管理器发现：

明显是模型没有调用 GPU，完全在 CPU 上推理，导致性能严重不足。

为了解决 GPU 不调用的问题，我尝试了网上常见的两种方法，但都失败了：

设置环境变量无效

配置了 OLLAMA_CUDA=1 等变量，重启后问题依旧。
手动安装 CUDA Toolkit 无效

我怀疑是系统缺少 CUDA 库，于是下载并安装了 cuda_13.2.0_windows_network 。
结果：安装过程顺利，但重启后 Ollama 依然无法识别显卡，速度没有提升。

结论：Ollama 在 Windows 下通常自带所需的 CUDA 库，不需要 用户手动安装 CUDA Toolkit。问题不在于缺库，而在于显卡驱动本身。

为了进一步确认显卡状态，我执行了命令：

bash 复制代码

nvidia-smi

意外发现 ：

终端报错 Failed to initialize NVML: Unknown Error。

原因分析：

既然 Game Ready 驱动不行，必须更换为面向创作和计算的 NVIDIA Studio 驱动。

操作步骤：

重启后再次验证：

检查驱动状态 ：执行 nvidia-smi，不再报错，成功显示显卡信息。
检查 Ollama 日志 ：执行 ollama serve，日志中出现：
复制代码
```
inference compute: CUDA
name: NVIDIA GeForce RTX 2060
total_vram: 6.0 GiB
```
表示 GPU 已被正常识别并启用 CUDA 加速。
实测效果：
- AnythingLLM 发送消息秒回。
- CPU 占用率恢复正常（个位数）。
- GPU 利用率跑满，显存被占用。

AnythingLLM 一直加载

→ 端口 11434 被占用，执行 taskkill /f /im ollama.exe 即可。
模型回复慢、CPU 跑满、GPU 闲置

→ Ollama 未识别显卡，强制使用 CPU 推理。
手动安装 CUDA Toolkit 无效

→ Ollama 自带 CUDA 库，不需要手动装。根本原因通常是显卡驱动不匹配。
nvidia-smi 报错或 Ollama 不识别显卡

→ 即使玩游戏正常，也请将 Game Ready 驱动 更换为 NVIDIA Studio 驱动，并进行清洁安装。
判断是否成功启用 GPU

→ 运行 ollama serve，日志出现 CUDA + 显卡型号即成功。

希望这个版本能帮到更多遇到同样问题的人！