Ollama 部署 Qwen 详细指南(2026 最新版)

适用系统 :Windows 10/11、macOS 12+、Linux(Ubuntu/CentOS)
目标模型 :Qwen3 系列(含 1.8B / 7B / 32B 等版本)
前置要求 :8GB+ 内存(推荐 16GB+),无需 GPU 也可运行小模型
更新日期:2026 年 2 月


一、为什么选择 Ollama + Qwen?

优势 说明
一键部署 无需配置 Python 环境、CUDA、依赖库
自动量化 自动下载 GGUF 4-bit 量化模型,节省显存
跨平台支持 Windows/macOS/Linux 全支持
OpenAI 兼容 API 可直接替换 GPT 调用
中文优化 Qwen 对中文理解远超 Llama 系列

💡 2026 年现状 :Ollama 已原生支持 Qwen3 全系列模型,并启用 思考模式/think)。


二、安装 Ollama

▶️ Windows

  1. 访问 ollama.com/download/Ol...
  2. 双击安装(默认安装到 C:\Users<user>\AppData\Local\Programs\Ollama
  3. 安装完成后自动启动服务(系统托盘出现 🐫 图标)

▶️ macOS

shell 复制代码
# 方法 1:官网下载 dmg
# https://ollama.com/download/Ollama-darwin.zip

# 方法 2:使用 Homebrew(推荐)
brew install ollama
brew services start ollama

▶️ Linux(Ubuntu/Debian)

bash 复制代码
curl -fsSL https://ollama.com/install.sh | sh
sudo systemctl enable ollama
sudo systemctl start ollama

🔍 验证安装

bash 复制代码
ollama --version
# 输出示例:ollama version is 0.4.5

三、下载 Qwen 模型(关键步骤)

Ollama 支持多种 Qwen 版本,命名规则为:qwen3:<size>-<quant>

📦 可用模型列表(2026 年 2 月)

模型名称 参数量 量化方式 内存需求 下载命令
qwen3:1.8b 1.8B Q4_K_M ~2 GB ollama pull qwen3:1.8b
qwen3:7b 7B Q4_K_M ~6 GB ollama pull qwen3:7b
qwen3:32b 32B Q4_K_M ~20 GB ollama pull qwen3:32b
qwen3:1.8b-q8_0 1.8B Q8(高精度) ~3 GB ollama pull qwen3:1.8b-q8_0

⚠️ 注意

  • 默认不加后缀 = Q4_K_M 量化(最佳性价比)
  • 首次下载需 5~30 分钟(取决于网速和模型大小)

▶️ 下载示例(以 7B 为例)

bash 复制代码
# 查看可用标签
ollama list

# 下载 Qwen3-7B(自动量化)
ollama pull qwen3:7b

# 输出示例:
# pulling manifest
# pulling 8d9a4e3c... 100% ▕████████████████████████████████████████▏ 4.2 GB
# verifying sha256 digest
# writing manifest
# success

💡 提示:模型文件默认保存在:

  • Windows: C:\Users<user>.ollama\models
  • macOS: ~/.ollama/models
  • Linux: ~/.ollama/models

四、命令行使用 Qwen

▶️ 基础对话

arduino 复制代码
ollama run qwen3:7b
>>> 你好!介绍一下你自己。

▶️ 特殊指令(Qwen3 独有)

指令 功能
/think 开启深度思考模式(慢但准确)
/nothink 关闭思考,快速响应
/clear 清空上下文
/set parameter num_ctx 4096 设置上下文长度

🌰 示例:

shell 复制代码
>>> /think
Thinking mode enabled.
>>> 解释量子纠缠的原理,并举例说明。
(模型将分步推理,输出更严谨)

▶️ 多轮对话

Ollama 自动维护会话上下文,直到输入 /clear 或退出。


五、API 调用(OpenAI 兼容)

Ollama 启动后自动监听 http://localhost:11434,提供 OpenAI 兼容 API。

▶️ 请求示例(Python)

vbscript 复制代码
import requests

response = requests.post(
    "http://localhost:11434/api/chat",
    json={
        "model": "qwen3:7b",
        "messages": [
            {"role": "user", "content": "写一个 Python 快速排序函数"}
        ],
        "stream": False
    }
)

print(response.json()["message"]["content"])

▶️ OpenAI SDK 兼容(推荐)

ini 复制代码
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意值均可
)

completion = client.chat.completions.create(
    model="qwen3:7b",
    messages=[{"role": "user", "content": "Hello!"}],
    temperature=0.7
)

print(completion.choices[0].message.content)

优势:现有 GPT 代码只需改两行即可切换到 Qwen!


六、可视化界面推荐

方案 1:ChatWise(免费,跨平台)

  1. 下载:chatwise.app
  2. 安装后打开 → 选择 Ollama 作为后端
  3. 在模型列表中选择已下载的 qwen3:7b
  4. 享受 Markdown 渲染、代码高亮、对话管理

方案 2:LM Studio(macOS/Windows)

  • 支持本地模型管理
  • 内置性能监控
  • 下载地址:lmstudio.ai

七、远程访问:让团队共享你的 Qwen

使用 Cloudflare Tunnel(免费内网穿透)

bash 复制代码
# 1. 下载 cloudflared
# https://developers.cloudflare.com/cloudflare-one/connections/connect-apps/install-and-setup/installation

# 2. 启动隧道(Ollama 默认端口 11434)
cloudflared tunnel --url http://localhost:11434

输出示例:

arduino 复制代码
Your tunnel is ready! Visit: https://abc123.trycloudflare.com

在 ChatWise 中配置远程地址:

  1. 设置 → 模型服务 → Ollama
  2. API 地址填写:https://abc123.trycloudflare.com
  3. 团队成员即可通过公网使用你的 Qwen!

🔒 安全提示:生产环境建议添加 API Key 验证(需反向代理)。


八、性能调优技巧

1. 强制 CPU 模式(无 GPU 时)

ini 复制代码
# Windows
set OLLAMA_NUM_GPU=0
ollama run qwen3:1.8b

# Linux/macOS
OLLAMA_NUM_GPU=0 ollama run qwen3:1.8b

2. 调整上下文长度

bash 复制代码
# 创建自定义 Modelfile
echo "FROM qwen3:7b" > Modelfile
echo "PARAMETER num_ctx 8192" >> Modelfile

# 构建新模型
ollama create qwen3-7b-long -f Modelfile

# 使用
ollama run qwen3-7b-long

3. 查看资源占用

bash 复制代码
# 实时监控
ollama ps

# 输出示例:
# NAME           ID              SIZE    PROCESSOR       UNTIL
# qwen3:7b       8d9a4e3c...     4.2 GB  100% CPU        5m

九、常见问题解答(FAQ)

❓ Q1:下载速度慢怎么办?

解决方案

  • 使用国内镜像(需手动配置):

    bash 复制代码
    # 临时设置代理(如你有代理)
    export http_proxy=http://your-proxy:port
    export https_proxy=http://your-proxy:port
    ollama pull qwen3:7b
  • 或从 ModelScope 手动下载 GGUF 文件,再导入 Ollama(高级操作)

❓ Q2:如何删除模型释放空间?

bash 复制代码
ollama rm qwen3:7b

❓ Q3:支持函数调用(Function Calling)吗?

部分支持

  • Qwen3 原生支持 MCP 协议(非 OpenAI Function Calling)
  • 需配合 MCP Server 使用(见 Qwen 官方文档)

❓ Q4:能否微调模型?

Ollama 不支持微调

替代方案

  • 使用 Qwen-Agent 框架进行 LoRA 微调
  • 微调后导出 GGUF 格式,再通过 Ollama 加载

十、学习资源


十一、总结:最佳实践路径

目标 推荐配置
个人体验 qwen3:1.8b + ChatWise
开发测试 qwen3:7b + OpenAI SDK
高性能推理 qwen3:32b + vLLM(非 Ollama)
团队共享 Ollama + Cloudflare Tunnel

💬 记住
"Ollama 让大模型本地化变得像安装 App 一样简单。"

今天,你已拥有属于自己的中文 AI 助手!


作者 :AI 工程师
版权声明 :本文可自由转载,但请保留出处。
GitHub 示例代码github.com/yourname/ol...(虚构)

相关推荐
hay_lee1 天前
Spring AI实现对话聊天-流式输出
java·人工智能·ollama·spring ai
穆友航2 天前
配置 OpenClaw 使用 Ollama 本地模型
大模型·ollama·openclaw
feasibility.4 天前
在OpenCode使用skills搭建基于LLM的dify工作流
人工智能·低代码·docker·ollama·skills·opencode·智能体/工作流
福大大架构师每日一题4 天前
ollama v0.15.2发布:新增Clawdbot集成指令,全面支持Ollama模型启动!
golang·ollama
问道飞鱼5 天前
【大模型知识】Chroma + Ollama + Llama 3.1 搭建本地知识库
llama·知识库·chroma·ollama
xiucai_cs6 天前
AI RAG 本地知识库实战
人工智能·知识库·dify·rag·ollama
玄同7656 天前
Llama.cpp 全实战指南:跨平台部署本地大模型的零门槛方案
人工智能·语言模型·自然语言处理·langchain·交互·llama·ollama
阿尔的代码屋7 天前
[大模型实战 01] 本地大模型初体验:Ollama 部署与 Python 调用指南
qwen·modelscope·大模型实战·ollama·大模型部署
skywalk81637 天前
尝试在openi启智社区的dcu环境安装ollama最新版0.15.2(失败)
linux·运维·服务器·ollama