下面为整理的 Ollama 详细安装步骤 以及 Python 调用本地 Qwen 模型 的完整指南。
第一部分:Ollama 安装详细步骤 (Windows 版)
Ollama 是目前最简单的本地大模型运行工具,它会自动处理驱动、依赖和量化问题。
1. 下载安装包
由于官方服务器在国外,下载速度可能较慢,您可以选择以下任一方式:
- 方式 A(官方推荐) :访问 ollama.com 点击 "Download for Windows"。
- 方式 B(国内加速/镜像) :如果官网下载慢,可以使用国内社区提供的加速链接(如 CSDN 或博客园推荐的镜像源),搜索 "Ollama Windows 安装包 镜像" 即可找到最新
.exe文件。
2. 执行安装
- 双击下载好的
OllamaSetup.exe。 - 点击 Install 按钮。
- 安装过程非常快(通常只需几秒钟),因为它主要是在配置环境变量和服务。
- 安装完成后,Ollama 会自动在后台启动。您会在任务栏右下角(系统托盘)看到一个 小羊驼图标 🦙。
- 注意:此时不要关闭它,它是 Ollama 的服务端,关闭后命令行将无法使用。
3. 验证安装
打开 PowerShell 或 命令提示符 (CMD),输入以下命令:
powershell
ollama --version
如果显示版本号(例如 ollama version is 0.x.x),说明安装成功。
4. (可选但推荐) 修改模型存储路径
默认情况下,模型会下载到 C 盘 (C:\Users\用户名\.ollama)。鉴于大模型文件很大(几个 GB 到几十 GB),建议提前修改到其他盘(如 E 盘)。
- 创建文件夹 :在 E 盘新建文件夹,例如
E:\OllamaModels。 - 设置系统环境变量 :
- 按
Win + S,搜索 "编辑系统环境变量" 并打开。 - 点击 "环境变量"。
- 在 "系统变量 " (下方区域) 中,点击 "新建 "。
- 变量名 :
OLLAMA_MODELS - 变量值 :
E:\OllamaModels
- 变量名 :
- 连续点击 "确定" 保存。
- 按
- 重启 Ollama 服务 :
- 右键点击任务栏右下角的 Ollama 图标 -> Quit Ollama。
- 重新从开始菜单启动 Ollama。
- 现在,所有新下载的模型都会保存在 E 盘了。
5. 下载并运行 Qwen 模型
在终端中输入以下命令(以 Qwen2.5 为例):
powershell
ollama run qwen2.5
- 第一次运行会自动下载模型(根据网速可能需要几分钟)。
- 下载完成后,直接进入对话界面。
- 输入
/bye可退出对话。
第二部分:Python 调用本地 Qwen 模型
Ollama 安装好后,会在本地启动一个 API 服务(默认端口 11434)。我们可以使用 Python 轻松调用它。
方法一:使用官方 ollama 库(推荐)
这是最简单、功能最全的方法,支持流式输出、多模态等。
1. 安装库
powershell
pip install ollama
2. 代码示例
python
import ollama
def chat_with_qwen():
model_name = "qwen2.5" # 确保你已通过 'ollama run qwen2.5' 下载了此模型
messages = [
{'role': 'system', 'content': '你是一个专业的 Python 编程助手。'},
{'role': 'user', 'content': '请用 Python 写一个计算斐波那契数列的函数,并解释原理。'}
]
try:
# 非流式调用(一次性返回结果)
# response = ollama.chat(model=model_name, messages=messages)
# print(response['message']['content'])
# --- 推荐:流式调用(像聊天一样逐字输出) ---
stream = ollama.chat(
model=model_name,
messages=messages,
stream=True,
)
print(f"Qwen ({model_name}) 正在回答:\n")
for chunk in stream:
# end='' 防止 print 自动换行,实现打字机效果
print(chunk['message']['content'], end='', flush=True)
print("\n\n回答结束。")
except Exception as e:
print(f"调用失败: {e}")
print("提示:请确保 Ollama 服务正在运行(右下角有小羊驼图标),且模型已下载。")
if __name__ == "__main__":
chat_with_qwen()
方法二:使用 requests 库(无需额外安装 ollama 库)
如果你不想安装额外的库,可以直接通过 HTTP 请求调用 Ollama 的 API。
1. 确保安装了 requests
powershell
pip install requests
2. 代码示例
python
import requests
import json
def chat_with_qwen_requests():
url = "http://localhost:11434/api/chat"
payload = {
"model": "qwen2.5",
"messages": [
{"role": "user", "content": "你好,请介绍一下你自己。"}
],
"stream": False # 设置为 True 可开启流式,但处理逻辑稍复杂
}
try:
response = requests.post(url, json=payload)
response.raise_for_status() # 检查请求是否成功
result = response.json()
print(result['message']['content'])
except requests.exceptions.ConnectionError:
print("连接失败:请检查 Ollama 服务是否已启动。")
except Exception as e:
print(f"发生错误: {e}")
if __name__ == "__main__":
chat_with_qwen_requests()
💡 常见问题排查 (FAQ)
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
Connection refused |
Ollama 服务未启动 | 检查右下角是否有小羊驼图标;如果没有,从开始菜单启动 Ollama。 |
model not found |
模型未下载或名称错误 | 运行 ollama list 查看已安装的模型名称。如果列表中没有,运行 ollama pull qwen2.5 下载。 |
| 响应速度极慢 | 使用了 CPU 而非 GPU | Ollama 会自动检测 GPU。如果没有独显,它会用 CPU(会很慢)。确保显卡驱动已更新。 |
| 显存不足 (OOM) | 模型太大,显存放不下 | 尝试更小参数的版本,如 ollama run qwen2.5:1.5b 或 qwen2.5:3b。 |
| Python 代码报错但命令行正常 | 环境变量未生效 | 如果你在 PowerShell 设置了 OLLAMA_MODELS,Python 脚本可能没读到。建议设为系统环境变量并重启电脑。 |