Mac 本地部署大模型

1 Mac 本地部署大模型

环境信息

  • 硬件:Mac(Apple Silicon)/ 16 GB RAM
  • 系统:macOS 14+(Sonoma)
  • Ollama:最新版(≥ 0.6)
  • Python:3.11.x
  • Open WebUI:最新版(pip 安装)
  • 模型:qwen3:14b(通用对话)、qwen2.5-coder:7b(代码推理)

1.1 整体架构概览

整套本地 AI 系统分为五层,每层职责明确,可按需替换其中某个组件:

复制代码
┌──────────────────────────────────────┐
│           UI 界面层                   │  ← Open WebUI
├──────────────────────────────────────┤
│           AI 调度层                   │  ← LiteLLM / MCP
├──────────────────────────────────────┤
│           大模型推理层                 │  ← qwen3:14b / qwen2.5-coder:7b
├──────────────────────────────────────┤
│           工具能力层                   │  ← 文件 / Shell / Git
├──────────────────────────────────────┤
│           长期记忆层                   │  ← RAG / 向量数据库
└──────────────────────────────────────┘

本教程重点覆盖 Ollama 推理层Open WebUI 界面层 的安装与联通,是整个系统的基础骨架。

1.1.1 模型选型说明

模型 用途 显存占用 推荐场景
qwen3:14b 通用对话 / 推理 约 10--12 GB 日常问答、分析、写作
qwen2.5-coder:7b 代码生成 / 补全 约 5--6 GB 编程辅助、代码审查

⚠️ 注意 :16 GB 机型建议不要同时运行两个模型,防止内存溢出。可通过 ollama ps 查看当前占用,用 ollama stop <模型名> 释放内存。


1.2 安装 Ollama

Ollama 是大模型的本地运行引擎,负责模型下载、加载与推理加速(利用 Metal GPU)。

1.2.1 方式 A:官网下载(推荐)

  1. 打开 https://ollama.com ,点击 Download for macOS ,下载 .dmg 安装包。
  2. 打开下载的 .dmg 文件,将 Ollama 拖入 Applications 文件夹。
  3. 首次运行会请求权限,授权后菜单栏出现 Ollama 图标,代表服务已在后台运行。

1.2.2 方式 B:Homebrew 安装

shell 复制代码
# 使用 Homebrew 安装
brew install ollama

# 设置为开机自启(可选)
brew services start ollama

1.2.3 验证安装

shell 复制代码
# 查看版本号
ollama --version
# 预期输出示例:ollama version is 0.6.x

浏览器访问 http://localhost:11434 ,若页面显示 Ollama is running 则代表安装成功。


1.3 拉取模型到本地

Ollama 通过 pull 命令从官方仓库下载模型,类似 Docker 拉取镜像。模型文件默认存储在 ~/.ollama/models/。按需拉取即可。

shell 复制代码
# 拉取通用对话模型(约 8.5 GB,需耐心等待)
ollama pull qwen3:14b

# 拉取代码专用模型(约 4.7 GB)
ollama pull qwen2.5-coder:7b

# 查看已下载的模型列表
ollama list

💡 下载过程中网络可能较慢,建议挂代理。下载完成后即使断网也可正常使用。

1.3.1 快速验证模型可用性

shell 复制代码
# 在终端直接与模型对话,Ctrl+D 退出
ollama run qwen3:14b

成功后终端出现 >>> 提示符,输入问题即可测试。


1.4 准备 Python 环境

Open WebUI 由 Python 编写,要求 Python ≥ 3.11 且 < 3.13

1.4.1 检查现有版本

shell 复制代码
python3 --version
# 若输出 Python 3.11.x 或 3.12.x,跳过安装步骤

1.4.2 安装 Python 3.11(版本不符时)

shell 复制代码
# 使用 Homebrew 安装 Python 3.11
brew install python@3.11

# 验证安装
python3.11 --version
# 输出:Python 3.11.x

1.4.3 创建独立虚拟环境

强烈建议使用虚拟环境,避免污染系统 Python,也方便日后卸载。

shell 复制代码
# 创建专用工作目录
mkdir ~/openwebui
cd ~/openwebui

# 以 Python 3.11 创建虚拟环境
python3.11 -m venv venv

# 激活虚拟环境(每次打开新终端都需执行此步)
source venv/bin/activate

# 激活成功后,终端提示符前会出现 (venv) 字样

1.5 安装并启动 Open WebUI

Open WebUI 是功能完善的大模型前端界面,支持多模型切换、对话历史、文件上传等,与 Ollama 无缝集成。

1.5.1 安装

确认终端提示符已显示 (venv) 前缀后,执行安装命令:

shell 复制代码
# 安装 open-webui(首次约需 5--10 分钟)
pip install open-webui

1.5.2 启动服务

shell 复制代码
# 启动 Open WebUI
open-webui serve

# 若提示命令未找到,使用备选命令:
python -m open_webui serve

看到如下日志代表启动成功:

复制代码
INFO:  Started server process [xxxxx]
INFO:  Waiting for application startup.
INFO:  Application startup complete.
INFO:  Uvicorn running on http://0.0.0.0:8080

打开浏览器,访问 http://localhost:8080,即可看到 Open WebUI 界面。


1.6 首次使用配置

首次打开需要创建管理员账号,该账号仅用于本地登录,信息可随意填写。

步骤:

  1. 点击页面上的 Get started,进入注册页面。

  2. 填写姓名、邮箱和密码(本地部署,信息不会上传任何服务器):

    复制代码
    Name:     Your Name
    Email:    yourname@example.com
    Password: your_password
  3. 点击创建,登录后在左上角模型下拉菜单中选择 qwen3:14bqwen2.5-coder:7b,即可开始对话。

💡 若模型下拉菜单中没有出现已下载的模型,请检查 Ollama 服务是否正在运行,可执行 ollama ps 确认。


1.7 常用操作速查

1.7.1 Ollama 日常命令

shell 复制代码
# 查看已安装的模型
ollama list

# 查看当前运行中的模型及内存占用
ollama ps

# 停止某个模型(释放内存)
ollama stop qwen3:14b

# 删除模型(释放磁盘空间)
ollama rm qwen2.5-coder:7b

# 手动启动 Ollama 服务
ollama serve

1.7.2 每次重启后的完整启动流程

shell 复制代码
# 步骤 1:确认 Ollama 服务运行(通常开机自启,无需手动操作)
# 若未运行则执行:ollama serve

# 步骤 2:激活 Python 虚拟环境
cd ~/openwebui
source venv/bin/activate

# 步骤 3:启动 Open WebUI
open-webui serve

# 步骤 4:浏览器打开 http://localhost:8080

1.7.3 常见问题排查

问题现象 可能原因 解决方法
模型列表为空 Ollama 服务未运行 执行 ollama serve 或重启菜单栏应用
open-webui 命令未找到 虚拟环境未激活 执行 source venv/bin/activate
对话响应极慢 内存不足,模型被 swap 关闭其他大型应用,或切换更小模型
8080 端口冲突 其他程序占用端口 执行 open-webui serve --port 8081
相关推荐
swipe2 小时前
别把 Agent 写成一团 Prompt:用 LangGraph 把多 Agent 系统变成可控状态机
后端·langchain·llm
CoderJia程序员甲2 小时前
GitHub 热榜项目 - 周榜(2026-05-10)
人工智能·ai·大模型·llm·github
feasibility.2 小时前
多模态模型Qwen-3.5在Llama-Factory使用+llama.cpp量化导出+部署流程(含报错处理)
人工智能·llm·多模态·量化·llama.cpp·vlm·llama-factory
一个处女座的程序猿2 小时前
MultiAgent之OpenClaw:QuantClaw的简介、安装和使用方法、案例应用之详细攻略
llm·openclaw·quantclaw
Lazy_zheng3 小时前
LangChain + RAG 入门实战:从模型调用到完整 RAG 流水线
langchain·llm·agent
小马过河R3 小时前
从官方定义读懂智能体的时代分量
人工智能·语言模型·大模型·llm·agent·ai编程·多模态
邵奈一3 小时前
M1 Max Mac版本实测 Rapid-MLX 项目(据说比ollama快4倍)
人工智能·macos·大模型
koping_wu3 小时前
【Claude Code】Mac安装Claude Code、通过阿里云百炼接入Claude Code
macos·阿里云·云计算·ai编程
nashane4 小时前
HarmonyOS 6学习:SpeechRecognitionEngine初始化报错排查实录
ide·macos·xcode·harmonyos 5