Ollama 部署 Qwen 详细指南（2026 最新版）

适用系统 ：Windows 10/11、macOS 12+、Linux（Ubuntu/CentOS）
目标模型 ：Qwen3 系列（含 1.8B / 7B / 32B 等版本）
前置要求 ：8GB+ 内存（推荐 16GB+），无需 GPU 也可运行小模型
更新日期：2026 年 2 月

一、为什么选择 Ollama + Qwen？

优势	说明
✅ 一键部署	无需配置 Python 环境、CUDA、依赖库
✅ 自动量化	自动下载 GGUF 4-bit 量化模型，节省显存
✅ 跨平台支持	Windows/macOS/Linux 全支持
✅ OpenAI 兼容 API	可直接替换 GPT 调用
✅ 中文优化	Qwen 对中文理解远超 Llama 系列

💡 2026 年现状 ：Ollama 已原生支持 Qwen3 全系列模型，并启用 思考模式 （/think）。

二、安装 Ollama

▶️ Windows

访问 ollama.com/download/Ol...
双击安装（默认安装到 C:\Users<user>\AppData\Local\Programs\Ollama）
安装完成后自动启动服务（系统托盘出现 🐫 图标）

▶️ macOS

shell 复制代码

# 方法 1：官网下载 dmg
# https://ollama.com/download/Ollama-darwin.zip

# 方法 2：使用 Homebrew（推荐）
brew install ollama
brew services start ollama

▶️ Linux（Ubuntu/Debian）

bash 复制代码

curl -fsSL https://ollama.com/install.sh | sh
sudo systemctl enable ollama
sudo systemctl start ollama

🔍 验证安装：
bash 复制代码
ollama --version
# 输出示例：ollama version is 0.4.5

三、下载 Qwen 模型（关键步骤）

Ollama 支持多种 Qwen 版本，命名规则为：qwen3:<size>-<quant>。

📦 可用模型列表（2026 年 2 月）

模型名称	参数量	量化方式	内存需求	下载命令
`qwen3:1.8b`	1.8B	Q4_K_M	~2 GB	`ollama pull qwen3:1.8b`
`qwen3:7b`	7B	Q4_K_M	~6 GB	`ollama pull qwen3:7b`
`qwen3:32b`	32B	Q4_K_M	~20 GB	`ollama pull qwen3:32b`
`qwen3:1.8b-q8_0`	1.8B	Q8（高精度）	~3 GB	`ollama pull qwen3:1.8b-q8_0`

⚠️ 注意：

默认不加后缀 = Q4_K_M 量化（最佳性价比）

首次下载需 5~30 分钟（取决于网速和模型大小）

▶️ 下载示例（以 7B 为例）

bash 复制代码

# 查看可用标签
ollama list

# 下载 Qwen3-7B（自动量化）
ollama pull qwen3:7b

# 输出示例：
# pulling manifest
# pulling 8d9a4e3c... 100% ▕████████████████████████████████████████▏ 4.2 GB
# verifying sha256 digest
# writing manifest
# success

💡 提示：模型文件默认保存在：

Windows: C:\Users<user>.ollama\models

macOS: ~/.ollama/models

Linux: ~/.ollama/models

四、命令行使用 Qwen

▶️ 基础对话

arduino 复制代码

ollama run qwen3:7b
>>> 你好！介绍一下你自己。

▶️ 特殊指令（Qwen3 独有）

指令	功能
`/think`	开启深度思考模式（慢但准确）
`/nothink`	关闭思考，快速响应
`/clear`	清空上下文
`/set parameter num_ctx 4096`	设置上下文长度

🌰 示例：

shell 复制代码

>>> /think
Thinking mode enabled.
>>> 解释量子纠缠的原理，并举例说明。
（模型将分步推理，输出更严谨）

▶️ 多轮对话

Ollama 自动维护会话上下文，直到输入 /clear 或退出。

五、API 调用（OpenAI 兼容）

Ollama 启动后自动监听 http://localhost:11434，提供 OpenAI 兼容 API。

▶️ 请求示例（Python）

vbscript 复制代码

import requests

response = requests.post(
    "http://localhost:11434/api/chat",
    json={
        "model": "qwen3:7b",
        "messages": [
            {"role": "user", "content": "写一个 Python 快速排序函数"}
        ],
        "stream": False
    }
)

print(response.json()["message"]["content"])

▶️ OpenAI SDK 兼容（推荐）

ini 复制代码

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意值均可
)

completion = client.chat.completions.create(
    model="qwen3:7b",
    messages=[{"role": "user", "content": "Hello!"}],
    temperature=0.7
)

print(completion.choices[0].message.content)

✅ 优势：现有 GPT 代码只需改两行即可切换到 Qwen！

六、可视化界面推荐

方案 1：ChatWise（免费，跨平台）

下载：chatwise.app
安装后打开 → 选择 Ollama 作为后端
在模型列表中选择已下载的 qwen3:7b
享受 Markdown 渲染、代码高亮、对话管理

方案 2：LM Studio（macOS/Windows）

支持本地模型管理
内置性能监控
下载地址：lmstudio.ai

七、远程访问：让团队共享你的 Qwen

使用 Cloudflare Tunnel（免费内网穿透）

bash 复制代码

# 1. 下载 cloudflared
# https://developers.cloudflare.com/cloudflare-one/connections/connect-apps/install-and-setup/installation

# 2. 启动隧道（Ollama 默认端口 11434）
cloudflared tunnel --url http://localhost:11434

输出示例：
arduino 复制代码
Your tunnel is ready! Visit: https://abc123.trycloudflare.com

在 ChatWise 中配置远程地址：

设置 → 模型服务 → Ollama
API 地址填写：https://abc123.trycloudflare.com
团队成员即可通过公网使用你的 Qwen！

🔒 安全提示：生产环境建议添加 API Key 验证（需反向代理）。

八、性能调优技巧

1. 强制 CPU 模式（无 GPU 时）

ini 复制代码

# Windows
set OLLAMA_NUM_GPU=0
ollama run qwen3:1.8b

# Linux/macOS
OLLAMA_NUM_GPU=0 ollama run qwen3:1.8b

2. 调整上下文长度

bash 复制代码

# 创建自定义 Modelfile
echo "FROM qwen3:7b" > Modelfile
echo "PARAMETER num_ctx 8192" >> Modelfile

# 构建新模型
ollama create qwen3-7b-long -f Modelfile

# 使用
ollama run qwen3-7b-long

3. 查看资源占用

bash 复制代码

# 实时监控
ollama ps

# 输出示例：
# NAME           ID              SIZE    PROCESSOR       UNTIL
# qwen3:7b       8d9a4e3c...     4.2 GB  100% CPU        5m

九、常见问题解答（FAQ）

❓ Q1：下载速度慢怎么办？

✅ 解决方案：

使用国内镜像（需手动配置）：

bash 复制代码

# 临时设置代理（如你有代理）
export http_proxy=http://your-proxy:port
export https_proxy=http://your-proxy:port
ollama pull qwen3:7b

或从 ModelScope 手动下载 GGUF 文件，再导入 Ollama（高级操作）

❓ Q2：如何删除模型释放空间？

bash 复制代码

ollama rm qwen3:7b

❓ Q3：支持函数调用（Function Calling）吗？

✅ 部分支持：

Qwen3 原生支持 MCP 协议（非 OpenAI Function Calling）
需配合 MCP Server 使用（见 Qwen 官方文档）

❓ Q4：能否微调模型？

❌ Ollama 不支持微调 ！

✅ 替代方案：

使用 Qwen-Agent 框架进行 LoRA 微调
微调后导出 GGUF 格式，再通过 Ollama 加载

十、学习资源

Ollama 官方文档 ：ollama.com/docs
Qwen GitHub ：github.com/QwenLM/Qwen
模型下载页 ：Ollama Library - Qwen
社区论坛 ：Ollama Discord

十一、总结：最佳实践路径

目标	推荐配置
个人体验	`qwen3:1.8b` + ChatWise
开发测试	`qwen3:7b` + OpenAI SDK
高性能推理	`qwen3:32b` + vLLM（非 Ollama）
团队共享	Ollama + Cloudflare Tunnel

💬 记住：
"Ollama 让大模型本地化变得像安装 App 一样简单。"

今天，你已拥有属于自己的中文 AI 助手！

作者：AI 工程师
版权声明 ：本文可自由转载，但请保留出处。
GitHub 示例代码 ：github.com/yourname/ol...（虚构）