大模型入门第三篇：本地部署大模型——完全免费跑起来

对比项	API 调用	本地部署
成本	按量付费，用多了贵	一次投入硬件，之后免费
隐私	数据要传到云端	数据完全本地，不出电脑
速度	受网络影响	本地运行，延迟低
离线	❌ 必须联网	✅ 断网也能用
定制	有限	可以微调、修改
门槛	低，注册就能用	需要一定硬件和配置能力
适合人群	新手、轻度用户	爱折腾、重度用户、隐私敏感

适合本地部署的场景

场景	为什么选本地
学习研究	随便折腾，不心疼钱
隐私敏感	文档、代码不出本地
高频使用	API 费用扛不住
离线环境	内网、无网环境
定制需求	需要微调、改模型

二、硬件要求：你的电脑能跑吗？

核心指标：显存（VRAM）

记住这个公式：

复制代码

模型参数量 × 2 = 所需显存（GB）

例如：
7B 模型 → 约 14GB 显存（全精度）
7B 模型 → 约 4GB 显存（4bit 量化）← 推荐
13B 模型 → 约 8GB 显存（4bit 量化）
70B 模型 → 约 40GB 显存（4bit 量化）

什么是量化？ 简单说就是"压缩模型"，用更少的精度换取更小的显存占用。

量化等级	显存占用	精度损失	推荐度
FP16（全精度）	100%	无	⭐⭐（显存够的话）
INT8（8bit）	50%	很小	⭐⭐⭐
INT4（4bit）	25%	轻微	⭐⭐⭐⭐⭐（推荐）
INT2（2bit）	12.5%	明显	⭐（不推荐）

硬件配置推荐表

配置等级	显卡	内存	能跑的模型	预算
入门	GTX 1660 6G	16GB	7B（4bit）	二手约 1000 元
主流	RTX 3060 12G	32GB	13B（4bit）、7B（全精度）	约 2000 元
进阶	RTX 3090 24G	64GB	30B（4bit）、70B（重度量化）	二手约 5000 元
发烧	RTX 4090 24G	64GB+	70B（4bit）	约 15000 元
Mac 党	M1/M2/M3 统一内存	16GB+	13B（4bit）	看苹果定价😅

没有独立显卡怎么办？

方案	说明	推荐度
CPU 运行	用内存代替显存，速度慢但能跑	⭐⭐⭐
云端租用	租 GPU 云服务器，按小时计费	⭐⭐⭐⭐
Colab 免费额度	Google Colab 免费 T4 显卡	⭐⭐⭐
小模型	跑 1B、3B 这种小模型	⭐⭐

小攀哥建议： 入门先用 CPU 跑小模型试试水，确定喜欢再考虑买显卡。

三、Ollama：命令行党的首选

什么是 Ollama？

Ollama 是一个开源的大模型本地运行工具，特点：

✅ 安装简单，一条命令搞定
✅ 模型库丰富，一键下载
✅ 支持 Windows/Mac/Linux
✅ 完全免费，开源

官网：https://ollama.ai

安装步骤（Windows 版）

步骤 1：下载安装包

访问 https://ollama.ai/download，下载 Windows 安装包。

步骤 2：一键安装

双击安装包，一路"下一步"，完事！

步骤 3：验证安装

打开 PowerShell 或 CMD，输入：

复制代码

ollama --version

看到版本号就说明安装成功了！

下载并运行模型

步骤 1：选择模型

Ollama 支持的模型：

模型	大小	适合场景	命令
Llama 3	8B/70B	通用，Meta 出品	`ollama run llama3`
Qwen2	7B/72B	中文优化好	`ollama run qwen2`
DeepSeek	7B/67B	代码能力强	`ollama run deepseek-coder`
Phi-3	3.8B	小体积，速度快	`ollama run phi3`
Gemma	7B	Google 出品	`ollama run gemma`

步骤 2：一键下载并运行

复制代码

ollama run llama3

发生了什么？

自动下载模型（首次需要时间）
下载完成后自动启动
进入对话界面

示例对话：

复制代码

$ ollama run llama3

>>> 你好，介绍一下你自己
你好！我是 Llama 3，一个由 Meta 开发的大型语言模型...

>>> 帮我写个 Python 函数，计算斐波那契数列
def fibonacci(n):
    if n <= 1:
        return n
    return fibonacci(n-1) + fibonacci(n-2)

>>> 退出
（输入 /bye 或 Ctrl+D 退出）

常用命令

命令	作用
`ollama run <模型名>`	下载并运行模型
`ollama list`	查看已下载的模型
`ollama pull <模型名>`	只下载不运行
`ollama rm <模型名>`	删除模型
`ollama ps`	查看运行中的模型

四、LM Studio：图形化新手友好

什么是 LM Studio？

LM Studio 是一个图形化的大模型运行工具，特点：

✅ 图形界面，不用敲命令
✅ 内置模型市场，一键下载
✅ 支持聊天、补全、嵌入等多种模式
✅ 可以当本地 API 服务器用

官网：https://lmstudio.ai

安装步骤

步骤 1：下载安装包

访问 https://lmstudio.ai，下载对应系统版本。

步骤 2：安装

双击安装包，按提示安装。

步骤 3：启动

打开 LM Studio，界面长这样：

复制代码

┌─────────────────────────────────────────┐
│  LM Studio                              │
├─────────────────────────────────────────┤
│  [搜索模型]  [下载]  [聊天]  [设置]     │
│                                         │
│  推荐模型：                              │
│  - Llama 3 8B Instruct                  │
│  - Qwen 2 7B Instruct                   │
│  - DeepSeek Coder 7B                    │
└─────────────────────────────────────────┘

使用流程

步骤 1：搜索并下载模型

点击"搜索"标签
输入模型名（如"llama 3"）
选择量化版本（推荐 Q4_K_M，即 4bit）
点击"下载"

步骤 2：加载模型

点击"聊天"标签
顶部选择刚下载的模型
等待模型加载（进度条走完）

步骤 3：开始聊天

在对话框输入问题，回车，等待回复。

LM Studio vs Ollama

对比项	Ollama	LM Studio
界面	命令行	图形界面
上手难度	⭐⭐	⭐⭐⭐⭐⭐
模型数量	多	更多
自定义	高	中等
API 服务	支持	支持
适合人群	命令行党、开发者	新手、图形界面爱好者

小攀哥建议： 新手先用 LM Studio 熟悉，熟练后用 Ollama 更灵活。

五、模型选择指南：7B、13B、70B 怎么选？

按参数量分类

参数量	显存需求（4bit）	速度	智能程度	推荐场景
1B-3B	1-2GB	飞快	基础	测试、学习、低配电脑
7B-8B	4-6GB	快	不错	日常对话、写作、代码
13B-14B	8-10GB	中等	好	复杂任务、专业场景
30B-34B	16-20GB	慢	很好	高质量输出、研究
70B+	35GB+	很慢	接近 GPT-4	顶级需求、多卡并行

按用途分类

用途	推荐模型	理由
中文对话	Qwen2、ChatGLM3	中文优化好
代码生成	DeepSeek-Coder、CodeLlama	专门训练过代码
通用场景	Llama 3、Phi-3	综合能力强
长文本	Yi-34B-200K、Qwen-72B	上下文窗口大
低配电脑	Phi-3、Gemma-2B	体积小速度快

小攀哥的私藏推荐

配置	我的推荐
显存 4GB	Phi-3-mini（3.8B）
显存 6GB	Llama 3 8B（4bit）
显存 8GB	Qwen2 7B（4bit）
显存 12GB	Llama 3 8B（全精度）或 Qwen2 72B（4bit）
显存 24GB	Qwen2 72B（4bit）或 Llama 3 70B（4bit）

六、常见问题排查

问题 1：显存不够，报错 OOM

症状：

复制代码

Error: CUDA out of memory. Tried to allocate...

解决方案：

方案	操作
换小模型	70B → 13B → 7B
换量化版本	FP16 → INT8 → INT4
关闭其他程序	浏览器、游戏等吃显存的
用 CPU 跑	速度慢但能跑

Ollama 设置 CPU 运行：

复制代码

# 设置只使用 CPU
ollama serve --num-gpu 0

问题 2：下载速度慢

症状： 模型下载要几个小时

解决方案：

方案	操作
换镜像源	用国内镜像（如 Hugging Face 镜像）
暂停继续	支持断点续传，别取消
离线下载	从别人电脑拷贝已下载的模型

Ollama 模型存放位置：

系统	路径
Windows	`C:\Users\你的用户名\.ollama\models`
Mac	`~/.ollama/models`
Linux	`~/.ollama/models`

问题 3：生成速度太慢

症状： 每秒只输出几个字，等得着急

解决方案：

原因	解决
模型太大	换小一点的模型
量化太低	用 4bit 代替全精度
显存不足	关闭其他程序，释放显存
CPU 运行	正常现象，考虑升级硬件

速度参考：

配置	模型	速度（字/秒）
RTX 3060	Llama 3 8B（4bit）	约 30-50
RTX 3090	Llama 3 8B（4bit）	约 80-100
RTX 4090	Llama 3 70B（4bit）	约 20-30
M2 Mac	Llama 3 8B（4bit）	约 40-60
CPU	Llama 3 8B（4bit）	约 2-5

问题 4：中文回答质量差

症状： 模型能听懂中文，但回答是英文或中文不通顺

解决方案：

方案	操作
换中文模型	用 Qwen2、ChatGLM3 等
在 prompt 里指定	"请用中文回答"
微调	用中文数据微调（进阶）

推荐中文模型：

复制代码

# Ollama 命令
ollama run qwen2      # 通义千问
ollama run chatglm3   # 智谱 GLM
ollama run yi         # 零一万物

七、进阶玩法：把本地模型当 API 用

Ollama 开启 API 服务

步骤 1：启动服务

复制代码

ollama serve

步骤 2：调用 API

复制代码

import requests

response = requests.post('http://localhost:11434/api/generate', json={
    'model': 'llama3',
    'prompt': '你好，介绍一下你自己',
    'stream': False
})

print(response.json()['response'])

LM Studio 开启 API 服务

步骤 1：设置里开启本地服务器

步骤 2：调用 API（兼容 OpenAI 格式）

复制代码

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="not-needed"  # 本地不需要
)

response = client.chat.completions.create(
    model="local-model",
    messages=[{"role": "user", "content": "你好"}]
)

print(response.choices[0].message.content)

有什么用？ 你可以用自己的代码调用本地模型，集成到自己的项目里！

小结

今天咱们学了：

知识点	核心内容
为什么本地部署	免费、隐私、离线、定制
硬件要求	显存是关键，4bit 量化最划算
Ollama	命令行工具，简单灵活
LM Studio	图形界面，新手友好
模型选择	按显存和用途选，7B-13B 最均衡
常见问题	显存不够、下载慢、生成慢、中文差
进阶玩法	开启 API 服务，集成到自己项目

核心结论：

✅ 本地部署完全免费，隐私安全
✅ 入门推荐 Ollama 或 LM Studio
✅ 7B-13B 模型最均衡，4bit 量化最划算
✅ 有问题别慌，按排查清单一步步来

下篇预告

第四篇咱们讲：《API 调用实战------国内外主流平台》

什么时候该用 API 而不是本地部署
OpenAI API 完整教程
国内替代方案（通义、文心、讯飞、智谱）
代码示例（Python、Node.js）
成本对比表（每 100 万 token 多少钱）
免费额度薅羊毛指南

承诺： 看完就能调 API，各大平台一网打尽！🌐

字数统计： 约 2800 字 ✅

小攀哥有话说： 这篇干货满满，建议收藏！跟着做，10 分钟内让大模型在你电脑上跑起来。有任何问题评论区见，小攀哥在线答疑！下篇咱们继续 API 调用实战！