1、首先我们打开Qwen3让其帮我写一篇关于如何本地部署开源Qwen的文章 内容如下为Markdown格式
以下是本地部署开源 Qwen3 大模型的详细步骤,结合了多篇教程的核心内容,帮助你快速完成部署:
一、准备工作
-
硬件要求
- 显卡:建议使用支持 CUDA 的 GPU(如 NVIDIA 系列),显存至少 8GB(根据模型版本调整)。
- 存储空间:模型文件较大(如 8B 模型约需 15GB,32B 模型需 60GB+)。
- 操作系统:支持 Windows/macOS/Linux。
-
软件依赖
- Ollama:轻量级模型管理工具,支持一键部署 Qwen3 模型。
- Qwen-Agent(可选):增强模型功能(如代码解释、工具调用)。
- Cherry Studio 或 LM Studio(可选):图形化界面客户端。
二、部署步骤
1. 安装 Ollama
Ollama 是部署 Qwen3 的核心工具,提供模型管理和服务启动功能。
-
下载安装
访问 Ollama 官网,选择对应操作系统的安装包并安装。
-
Windows:直接运行安装程序,完成后重启电脑。
-
macOS/Linux :通过终端执行以下命令:
bashcurl -fsSL https://ollama.com/install.sh | sh
-
-
启动 Ollama 服务
安装完成后,在终端运行:
bashollama serve
默认监听
localhost:11434
端口,若端口被占用需调整配置。
2. 下载 Qwen3 模型
根据硬件条件选择合适的模型版本(如 4B、8B、14B、32B 等)。
-
查看可用模型
在终端运行:
bashollama list
或访问 Ollama 模型库 查看 Qwen3 支持的版本。
-
拉取模型
根据需求选择模型版本(例如 8B 模型):
bashollama pull qwen3:8b
若提示
model not found
,请先运行ollama run qwen3:8b
自动拉取。 -
验证模型状态
运行以下命令查看模型是否成功加载:
bashollama list
3. 配置 Qwen3 模型
方式 1:通过命令行交互
-
启动模型
在终端运行:bashollama run qwen3:8b
输入指令与模型交互,例如:
bash> 你好!
方式 2:通过图形化界面(Cherry Studio/LM Studio)
-
安装 Cherry Studio
- 下载地址:Cherry Studio
- 打开软件后,进入 设置 -> 模型服务 -> Ollama -> 管理。
-
添加本地模型
- 点击 添加模型 ,选择 Ollama 本地模型。
- 输入模型名称
qwen3:8b
(需与部署版本一致)。 - 设置默认模型后,即可在聊天界面与模型交互。
方式 3:通过 Python 调用
-
安装依赖
bashpip install ollama
-
编写调用脚本
pythonimport ollama # 生成文本 response = ollama.generate(model='qwen3:8b', prompt='介绍一下 Qwen3 的优势') print(response['response']) # 流式输出 for chunk in ollama.generate_stream(model='qwen3:8b', prompt='写一个 Python 代码示例'): print(chunk['response'], end='', flush=True)
4. 高级功能配置(Qwen-Agent)
如果需要扩展模型功能(如代码解释、工具调用),可安装 Qwen-Agent。
-
克隆仓库并安装依赖
bashgit clone https://github.com/QwenLM/Qwen-Agent.git pip install -e ./Qwen-Agent[gui, rag, code_interpreter, mcp]
-
编写 Python 脚本
pythonfrom qwen_agent.agents import Assistant # 配置模型 llm_cfg = { 'model': 'qwen3:8b', 'model_server': 'http://localhost:11434/v1', 'api_key': 'EMPTY' } # 定义工具(如代码解释器) tools = ['code_interpreter'] # 初始化助手 bot = Assistant(llm=llm_cfg, function_list=tools) # 发送请求 messages = [{'role': 'user', 'content': '计算 5! 的值'}] for responses in bot.run(messages=messages): print(responses)
三、常见问题及解决方案
1. 模型运行卡顿
- 原因:显存不足或后台程序占用资源。
- 解决方法 :
- 关闭其他占用 GPU 的程序。
- 降低模型版本(如从 32B 切换至 8B)。
- 使用量化版本(如
qwen3:8b-q4
)。
2. Mac 用户部署问题
- 支持情况 :
- M1/M2 芯片:支持 14B 以下模型。
- M3/M3 Pro/M3 Max:支持 32B 模型。
- 解决方法:选择适合的模型版本,避免超显存限制。
3. 端口冲突
- 现象 :启动 Ollama 时提示
port 11434 is occupied
。 - 解决方法 :
-
修改 Ollama 配置文件中的端口(需编辑
~/.ollama/config.json
)。 -
或通过命令行指定端口:
bashollama serve --host :11435
-
四、总结
- 核心工具:Ollama + Cherry Studio/LM Studio。
- 关键步骤:安装 Ollama → 拉取模型 → 配置客户端/Python 脚本。
- 适用场景:本地离线 AI 问答、代码生成、数据分析等。
通过以上步骤,你可以快速在本地部署 Qwen3 模型并灵活调用。如果需要进一步优化性能(如多模态支持、微调训练),可参考官方文档或进阶教程。
打开:www.wordtocard.com 将上述生成的内容复制到WordToCard当中 点击开始使用 在工具栏的插入当中,点击插入MD
将Qwen3生成的内容粘贴到弹出框当中
然后点击确定
选择自动拆分为小红书固定高度
生成成功,我们可以点击打包下载所有图片,也可以点击下载单张图片