从安装到运行的 Ollama 快速指南,适合本地学习和日常测试使用
一、Ollama 是什么(一句话)
Ollama 是一个用于在本地运行大语言模型(如 LLaMA、Qwen、Mistral 等)的工具,支持 一行命令拉模型、直接对话运行,非常适合本地实验和开发测试。
二、安装 Ollama
1️⃣ Windows / macOS / Linux
👉 官方下载地址:
下载安装后,终端执行:
ollama --version
能正常输出版本号,说明安装成功。
三、启动 Ollama 服务
✅ macOS / Linux
安装完成后会自动启动后台服务,无需手动启动。
✅ Windows
安装后同样会自动启动,如需手动启动:
ollama serve
四、运行第一个模型(推荐)
1️⃣ 拉取并运行模型(一次完成)
ollama run llama3
或(中文效果更好):
ollama run qwen2.5
第一次运行会自动下载模型(几 GB),请耐心等待。
五、常用命令速查
查看已下载模型
ollama list
运行指定模型
ollama run mistral
删除模型
ollama rm llama3
查看运行中的模型
ollama ps
六、通过 API 使用 Ollama(进阶)
Ollama 默认在本地启动一个服务:
示例:使用 curl 调用
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5",
"prompt": "介绍一下 Ollama 的作用"
}'
七、常见问题
❓ 模型下载慢
建议使用稳定网络
可提前下载常用模型,避免频繁拉取
❓ 显存 / 内存不够
选择参数更小的模型(如 7b、8b)
同一时间只运行一个模型
❓ 中文效果不好
推荐模型:
qwen2.5
llama3:8b
deepseek-r1
八、典型学习路径(结合你前面的目标)
建议顺序:
本地成功运行 ollama run qwen2.5
理解模型下载、启动、停止流程
使用 API 调用
再结合 Docker / 容器环境进行测试