目录
[开篇:不想花钱调 API?本地部署安排!](#开篇:不想花钱调 API?本地部署安排!)
[本地部署 vs API 调用](#本地部署 vs API 调用)
[什么是 Ollama?](#什么是 Ollama?)
[安装步骤(Windows 版)](#安装步骤(Windows 版))
[四、LM Studio:图形化新手友好](#四、LM Studio:图形化新手友好)
[什么是 LM Studio?](#什么是 LM Studio?)
[LM Studio vs Ollama](#LM Studio vs Ollama)
[五、模型选择指南:7B、13B、70B 怎么选?](#五、模型选择指南:7B、13B、70B 怎么选?)
[问题 1:显存不够,报错 OOM](#问题 1:显存不够,报错 OOM)
[问题 2:下载速度慢](#问题 2:下载速度慢)
[问题 3:生成速度太慢](#问题 3:生成速度太慢)
[问题 4:中文回答质量差](#问题 4:中文回答质量差)
[七、进阶玩法:把本地模型当 API 用](#七、进阶玩法:把本地模型当 API 用)
[Ollama 开启 API 服务](#Ollama 开启 API 服务)
[LM Studio 开启 API 服务](#LM Studio 开启 API 服务)
开篇:不想花钱调 API?本地部署安排!
上篇咱们搞懂了 Transformer 是啥,可能有同学要问了:
"小攀哥,道理我都懂,但我想实际玩玩大模型,不想花钱调 API,有啥办法?"
有!本地部署安排上!
今天小攀哥带你在自己电脑上跑大模型,完全免费,想怎么玩怎么玩。不用担心 API 额度、不用担心隐私泄露、更不用担心断网就用不了!
一、为什么要本地部署?
本地部署 vs API 调用
| 对比项 | API 调用 | 本地部署 |
|---|---|---|
| 成本 | 按量付费,用多了贵 | 一次投入硬件,之后免费 |
| 隐私 | 数据要传到云端 | 数据完全本地,不出电脑 |
| 速度 | 受网络影响 | 本地运行,延迟低 |
| 离线 | ❌ 必须联网 | ✅ 断网也能用 |
| 定制 | 有限 | 可以微调、修改 |
| 门槛 | 低,注册就能用 | 需要一定硬件和配置能力 |
| 适合人群 | 新手、轻度用户 | 爱折腾、重度用户、隐私敏感 |
适合本地部署的场景
| 场景 | 为什么选本地 |
|---|---|
| 学习研究 | 随便折腾,不心疼钱 |
| 隐私敏感 | 文档、代码不出本地 |
| 高频使用 | API 费用扛不住 |
| 离线环境 | 内网、无网环境 |
| 定制需求 | 需要微调、改模型 |
二、硬件要求:你的电脑能跑吗?
核心指标:显存(VRAM)
记住这个公式:
模型参数量 × 2 = 所需显存(GB)
例如:
7B 模型 → 约 14GB 显存(全精度)
7B 模型 → 约 4GB 显存(4bit 量化)← 推荐
13B 模型 → 约 8GB 显存(4bit 量化)
70B 模型 → 约 40GB 显存(4bit 量化)
什么是量化? 简单说就是"压缩模型",用更少的精度换取更小的显存占用。
| 量化等级 | 显存占用 | 精度损失 | 推荐度 |
|---|---|---|---|
| FP16(全精度) | 100% | 无 | ⭐⭐(显存够的话) |
| INT8(8bit) | 50% | 很小 | ⭐⭐⭐ |
| INT4(4bit) | 25% | 轻微 | ⭐⭐⭐⭐⭐(推荐) |
| INT2(2bit) | 12.5% | 明显 | ⭐(不推荐) |
硬件配置推荐表
| 配置等级 | 显卡 | 内存 | 能跑的模型 | 预算 |
|---|---|---|---|---|
| 入门 | GTX 1660 6G | 16GB | 7B(4bit) | 二手约 1000 元 |
| 主流 | RTX 3060 12G | 32GB | 13B(4bit)、7B(全精度) | 约 2000 元 |
| 进阶 | RTX 3090 24G | 64GB | 30B(4bit)、70B(重度量化) | 二手约 5000 元 |
| 发烧 | RTX 4090 24G | 64GB+ | 70B(4bit) | 约 15000 元 |
| Mac 党 | M1/M2/M3 统一内存 | 16GB+ | 13B(4bit) | 看苹果定价😅 |
没有独立显卡怎么办?
| 方案 | 说明 | 推荐度 |
|---|---|---|
| CPU 运行 | 用内存代替显存,速度慢但能跑 | ⭐⭐⭐ |
| 云端租用 | 租 GPU 云服务器,按小时计费 | ⭐⭐⭐⭐ |
| Colab 免费额度 | Google Colab 免费 T4 显卡 | ⭐⭐⭐ |
| 小模型 | 跑 1B、3B 这种小模型 | ⭐⭐ |
小攀哥建议: 入门先用 CPU 跑小模型试试水,确定喜欢再考虑买显卡。
三、Ollama:命令行党的首选
什么是 Ollama?
Ollama 是一个开源的大模型本地运行工具,特点:
- ✅ 安装简单,一条命令搞定
- ✅ 模型库丰富,一键下载
- ✅ 支持 Windows/Mac/Linux
- ✅ 完全免费,开源
安装步骤(Windows 版)
步骤 1:下载安装包
访问 https://ollama.ai/download,下载 Windows 安装包。
步骤 2:一键安装
双击安装包,一路"下一步",完事!
步骤 3:验证安装
打开 PowerShell 或 CMD,输入:
ollama --version
看到版本号就说明安装成功了!
下载并运行模型
步骤 1:选择模型
Ollama 支持的模型:
| 模型 | 大小 | 适合场景 | 命令 |
|---|---|---|---|
| Llama 3 | 8B/70B | 通用,Meta 出品 | ollama run llama3 |
| Qwen2 | 7B/72B | 中文优化好 | ollama run qwen2 |
| DeepSeek | 7B/67B | 代码能力强 | ollama run deepseek-coder |
| Phi-3 | 3.8B | 小体积,速度快 | ollama run phi3 |
| Gemma | 7B | Google 出品 | ollama run gemma |
步骤 2:一键下载并运行
ollama run llama3
发生了什么?
- 自动下载模型(首次需要时间)
- 下载完成后自动启动
- 进入对话界面
示例对话:
$ ollama run llama3
>>> 你好,介绍一下你自己
你好!我是 Llama 3,一个由 Meta 开发的大型语言模型...
>>> 帮我写个 Python 函数,计算斐波那契数列
def fibonacci(n):
if n <= 1:
return n
return fibonacci(n-1) + fibonacci(n-2)
>>> 退出
(输入 /bye 或 Ctrl+D 退出)
常用命令
| 命令 | 作用 |
|---|---|
ollama run <模型名> |
下载并运行模型 |
ollama list |
查看已下载的模型 |
ollama pull <模型名> |
只下载不运行 |
ollama rm <模型名> |
删除模型 |
ollama ps |
查看运行中的模型 |
四、LM Studio:图形化新手友好
什么是 LM Studio?
LM Studio 是一个图形化的大模型运行工具,特点:
- ✅ 图形界面,不用敲命令
- ✅ 内置模型市场,一键下载
- ✅ 支持聊天、补全、嵌入等多种模式
- ✅ 可以当本地 API 服务器用
安装步骤
步骤 1:下载安装包
访问 https://lmstudio.ai,下载对应系统版本。
步骤 2:安装
双击安装包,按提示安装。
步骤 3:启动
打开 LM Studio,界面长这样:
┌─────────────────────────────────────────┐
│ LM Studio │
├─────────────────────────────────────────┤
│ [搜索模型] [下载] [聊天] [设置] │
│ │
│ 推荐模型: │
│ - Llama 3 8B Instruct │
│ - Qwen 2 7B Instruct │
│ - DeepSeek Coder 7B │
└─────────────────────────────────────────┘
使用流程
步骤 1:搜索并下载模型
- 点击"搜索"标签
- 输入模型名(如"llama 3")
- 选择量化版本(推荐 Q4_K_M,即 4bit)
- 点击"下载"
步骤 2:加载模型
- 点击"聊天"标签
- 顶部选择刚下载的模型
- 等待模型加载(进度条走完)
步骤 3:开始聊天
在对话框输入问题,回车,等待回复。
LM Studio vs Ollama
| 对比项 | Ollama | LM Studio |
|---|---|---|
| 界面 | 命令行 | 图形界面 |
| 上手难度 | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| 模型数量 | 多 | 更多 |
| 自定义 | 高 | 中等 |
| API 服务 | 支持 | 支持 |
| 适合人群 | 命令行党、开发者 | 新手、图形界面爱好者 |
小攀哥建议: 新手先用 LM Studio 熟悉,熟练后用 Ollama 更灵活。
五、模型选择指南:7B、13B、70B 怎么选?
按参数量分类
| 参数量 | 显存需求(4bit) | 速度 | 智能程度 | 推荐场景 |
|---|---|---|---|---|
| 1B-3B | 1-2GB | 飞快 | 基础 | 测试、学习、低配电脑 |
| 7B-8B | 4-6GB | 快 | 不错 | 日常对话、写作、代码 |
| 13B-14B | 8-10GB | 中等 | 好 | 复杂任务、专业场景 |
| 30B-34B | 16-20GB | 慢 | 很好 | 高质量输出、研究 |
| 70B+ | 35GB+ | 很慢 | 接近 GPT-4 | 顶级需求、多卡并行 |
按用途分类
| 用途 | 推荐模型 | 理由 |
|---|---|---|
| 中文对话 | Qwen2、ChatGLM3 | 中文优化好 |
| 代码生成 | DeepSeek-Coder、CodeLlama | 专门训练过代码 |
| 通用场景 | Llama 3、Phi-3 | 综合能力强 |
| 长文本 | Yi-34B-200K、Qwen-72B | 上下文窗口大 |
| 低配电脑 | Phi-3、Gemma-2B | 体积小速度快 |
小攀哥的私藏推荐
| 配置 | 我的推荐 |
|---|---|
| 显存 4GB | Phi-3-mini(3.8B) |
| 显存 6GB | Llama 3 8B(4bit) |
| 显存 8GB | Qwen2 7B(4bit) |
| 显存 12GB | Llama 3 8B(全精度)或 Qwen2 72B(4bit) |
| 显存 24GB | Qwen2 72B(4bit)或 Llama 3 70B(4bit) |
六、常见问题排查
问题 1:显存不够,报错 OOM
症状:
Error: CUDA out of memory. Tried to allocate...
解决方案:
| 方案 | 操作 |
|---|---|
| 换小模型 | 70B → 13B → 7B |
| 换量化版本 | FP16 → INT8 → INT4 |
| 关闭其他程序 | 浏览器、游戏等吃显存的 |
| 用 CPU 跑 | 速度慢但能跑 |
Ollama 设置 CPU 运行:
# 设置只使用 CPU
ollama serve --num-gpu 0
问题 2:下载速度慢
症状: 模型下载要几个小时
解决方案:
| 方案 | 操作 |
|---|---|
| 换镜像源 | 用国内镜像(如 Hugging Face 镜像) |
| 暂停继续 | 支持断点续传,别取消 |
| 离线下载 | 从别人电脑拷贝已下载的模型 |
Ollama 模型存放位置:
| 系统 | 路径 |
|---|---|
| Windows | C:\Users\你的用户名\.ollama\models |
| Mac | ~/.ollama/models |
| Linux | ~/.ollama/models |
问题 3:生成速度太慢
症状: 每秒只输出几个字,等得着急
解决方案:
| 原因 | 解决 |
|---|---|
| 模型太大 | 换小一点的模型 |
| 量化太低 | 用 4bit 代替全精度 |
| 显存不足 | 关闭其他程序,释放显存 |
| CPU 运行 | 正常现象,考虑升级硬件 |
速度参考:
| 配置 | 模型 | 速度(字/秒) |
|---|---|---|
| RTX 3060 | Llama 3 8B(4bit) | 约 30-50 |
| RTX 3090 | Llama 3 8B(4bit) | 约 80-100 |
| RTX 4090 | Llama 3 70B(4bit) | 约 20-30 |
| M2 Mac | Llama 3 8B(4bit) | 约 40-60 |
| CPU | Llama 3 8B(4bit) | 约 2-5 |
问题 4:中文回答质量差
症状: 模型能听懂中文,但回答是英文或中文不通顺
解决方案:
| 方案 | 操作 |
|---|---|
| 换中文模型 | 用 Qwen2、ChatGLM3 等 |
| 在 prompt 里指定 | "请用中文回答" |
| 微调 | 用中文数据微调(进阶) |
推荐中文模型:
# Ollama 命令
ollama run qwen2 # 通义千问
ollama run chatglm3 # 智谱 GLM
ollama run yi # 零一万物
七、进阶玩法:把本地模型当 API 用
Ollama 开启 API 服务
步骤 1:启动服务
ollama serve
步骤 2:调用 API
import requests
response = requests.post('http://localhost:11434/api/generate', json={
'model': 'llama3',
'prompt': '你好,介绍一下你自己',
'stream': False
})
print(response.json()['response'])
LM Studio 开启 API 服务
步骤 1:设置里开启本地服务器
步骤 2:调用 API(兼容 OpenAI 格式)
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="not-needed" # 本地不需要
)
response = client.chat.completions.create(
model="local-model",
messages=[{"role": "user", "content": "你好"}]
)
print(response.choices[0].message.content)
有什么用? 你可以用自己的代码调用本地模型,集成到自己的项目里!
小结
今天咱们学了:
| 知识点 | 核心内容 |
|---|---|
| 为什么本地部署 | 免费、隐私、离线、定制 |
| 硬件要求 | 显存是关键,4bit 量化最划算 |
| Ollama | 命令行工具,简单灵活 |
| LM Studio | 图形界面,新手友好 |
| 模型选择 | 按显存和用途选,7B-13B 最均衡 |
| 常见问题 | 显存不够、下载慢、生成慢、中文差 |
| 进阶玩法 | 开启 API 服务,集成到自己项目 |
核心结论:
- ✅ 本地部署完全免费,隐私安全
- ✅ 入门推荐 Ollama 或 LM Studio
- ✅ 7B-13B 模型最均衡,4bit 量化最划算
- ✅ 有问题别慌,按排查清单一步步来
下篇预告
第四篇咱们讲:《API 调用实战------国内外主流平台》
- 什么时候该用 API 而不是本地部署
- OpenAI API 完整教程
- 国内替代方案(通义、文心、讯飞、智谱)
- 代码示例(Python、Node.js)
- 成本对比表(每 100 万 token 多少钱)
- 免费额度薅羊毛指南
承诺: 看完就能调 API,各大平台一网打尽!🌐
字数统计: 约 2800 字 ✅
小攀哥有话说: 这篇干货满满,建议收藏!跟着做,10 分钟内让大模型在你电脑上跑起来。有任何问题评论区见,小攀哥在线答疑!下篇咱们继续 API 调用实战!