大模型入门第三篇:本地部署大模型——完全免费跑起来

目录

[开篇:不想花钱调 API?本地部署安排!](#开篇:不想花钱调 API?本地部署安排!)

一、为什么要本地部署?

[本地部署 vs API 调用](#本地部署 vs API 调用)

适合本地部署的场景

二、硬件要求:你的电脑能跑吗?

核心指标:显存(VRAM)

硬件配置推荐表

没有独立显卡怎么办?

三、Ollama:命令行党的首选

[什么是 Ollama?](#什么是 Ollama?)

[安装步骤(Windows 版)](#安装步骤(Windows 版))

下载并运行模型

常用命令

[四、LM Studio:图形化新手友好](#四、LM Studio:图形化新手友好)

[什么是 LM Studio?](#什么是 LM Studio?)

安装步骤

使用流程

[LM Studio vs Ollama](#LM Studio vs Ollama)

[五、模型选择指南:7B、13B、70B 怎么选?](#五、模型选择指南:7B、13B、70B 怎么选?)

按参数量分类

按用途分类

小攀哥的私藏推荐

六、常见问题排查

[问题 1:显存不够,报错 OOM](#问题 1:显存不够,报错 OOM)

[问题 2:下载速度慢](#问题 2:下载速度慢)

[问题 3:生成速度太慢](#问题 3:生成速度太慢)

[问题 4:中文回答质量差](#问题 4:中文回答质量差)

[七、进阶玩法:把本地模型当 API 用](#七、进阶玩法:把本地模型当 API 用)

[Ollama 开启 API 服务](#Ollama 开启 API 服务)

[LM Studio 开启 API 服务](#LM Studio 开启 API 服务)

小结

下篇预告


开篇:不想花钱调 API?本地部署安排!

上篇咱们搞懂了 Transformer 是啥,可能有同学要问了:

"小攀哥,道理我都懂,但我想实际玩玩大模型,不想花钱调 API,有啥办法?"

有!本地部署安排上!

今天小攀哥带你在自己电脑上跑大模型,完全免费,想怎么玩怎么玩。不用担心 API 额度、不用担心隐私泄露、更不用担心断网就用不了!


一、为什么要本地部署?

本地部署 vs API 调用

对比项 API 调用 本地部署
成本 按量付费,用多了贵 一次投入硬件,之后免费
隐私 数据要传到云端 数据完全本地,不出电脑
速度 受网络影响 本地运行,延迟低
离线 ❌ 必须联网 ✅ 断网也能用
定制 有限 可以微调、修改
门槛 低,注册就能用 需要一定硬件和配置能力
适合人群 新手、轻度用户 爱折腾、重度用户、隐私敏感

适合本地部署的场景

场景 为什么选本地
学习研究 随便折腾,不心疼钱
隐私敏感 文档、代码不出本地
高频使用 API 费用扛不住
离线环境 内网、无网环境
定制需求 需要微调、改模型

二、硬件要求:你的电脑能跑吗?

核心指标:显存(VRAM)

记住这个公式:

复制代码
模型参数量 × 2 = 所需显存(GB)

例如:
7B 模型 → 约 14GB 显存(全精度)
7B 模型 → 约 4GB 显存(4bit 量化)← 推荐
13B 模型 → 约 8GB 显存(4bit 量化)
70B 模型 → 约 40GB 显存(4bit 量化)

什么是量化? 简单说就是"压缩模型",用更少的精度换取更小的显存占用。

量化等级 显存占用 精度损失 推荐度
FP16(全精度) 100% ⭐⭐(显存够的话)
INT8(8bit) 50% 很小 ⭐⭐⭐
INT4(4bit) 25% 轻微 ⭐⭐⭐⭐⭐(推荐)
INT2(2bit) 12.5% 明显 ⭐(不推荐)

硬件配置推荐表

配置等级 显卡 内存 能跑的模型 预算
入门 GTX 1660 6G 16GB 7B(4bit) 二手约 1000 元
主流 RTX 3060 12G 32GB 13B(4bit)、7B(全精度) 约 2000 元
进阶 RTX 3090 24G 64GB 30B(4bit)、70B(重度量化) 二手约 5000 元
发烧 RTX 4090 24G 64GB+ 70B(4bit) 约 15000 元
Mac 党 M1/M2/M3 统一内存 16GB+ 13B(4bit) 看苹果定价😅

没有独立显卡怎么办?

方案 说明 推荐度
CPU 运行 用内存代替显存,速度慢但能跑 ⭐⭐⭐
云端租用 租 GPU 云服务器,按小时计费 ⭐⭐⭐⭐
Colab 免费额度 Google Colab 免费 T4 显卡 ⭐⭐⭐
小模型 跑 1B、3B 这种小模型 ⭐⭐

小攀哥建议: 入门先用 CPU 跑小模型试试水,确定喜欢再考虑买显卡。


三、Ollama:命令行党的首选

什么是 Ollama?

Ollama 是一个开源的大模型本地运行工具,特点:

  • ✅ 安装简单,一条命令搞定
  • ✅ 模型库丰富,一键下载
  • ✅ 支持 Windows/Mac/Linux
  • ✅ 完全免费,开源

官网:https://ollama.ai

安装步骤(Windows 版)

步骤 1:下载安装包

访问 https://ollama.ai/download,下载 Windows 安装包。

步骤 2:一键安装

双击安装包,一路"下一步",完事!

步骤 3:验证安装

打开 PowerShell 或 CMD,输入:

复制代码
ollama --version

看到版本号就说明安装成功了!

下载并运行模型

步骤 1:选择模型

Ollama 支持的模型:

模型 大小 适合场景 命令
Llama 3 8B/70B 通用,Meta 出品 ollama run llama3
Qwen2 7B/72B 中文优化好 ollama run qwen2
DeepSeek 7B/67B 代码能力强 ollama run deepseek-coder
Phi-3 3.8B 小体积,速度快 ollama run phi3
Gemma 7B Google 出品 ollama run gemma

步骤 2:一键下载并运行

复制代码
ollama run llama3

发生了什么?

  1. 自动下载模型(首次需要时间)
  2. 下载完成后自动启动
  3. 进入对话界面

示例对话:

复制代码
$ ollama run llama3

>>> 你好,介绍一下你自己
你好!我是 Llama 3,一个由 Meta 开发的大型语言模型...

>>> 帮我写个 Python 函数,计算斐波那契数列
def fibonacci(n):
    if n <= 1:
        return n
    return fibonacci(n-1) + fibonacci(n-2)

>>> 退出
(输入 /bye 或 Ctrl+D 退出)

常用命令

命令 作用
ollama run <模型名> 下载并运行模型
ollama list 查看已下载的模型
ollama pull <模型名> 只下载不运行
ollama rm <模型名> 删除模型
ollama ps 查看运行中的模型

四、LM Studio:图形化新手友好

什么是 LM Studio?

LM Studio 是一个图形化的大模型运行工具,特点:

  • ✅ 图形界面,不用敲命令
  • ✅ 内置模型市场,一键下载
  • ✅ 支持聊天、补全、嵌入等多种模式
  • ✅ 可以当本地 API 服务器用

官网:https://lmstudio.ai

安装步骤

步骤 1:下载安装包

访问 https://lmstudio.ai,下载对应系统版本。

步骤 2:安装

双击安装包,按提示安装。

步骤 3:启动

打开 LM Studio,界面长这样:

复制代码
┌─────────────────────────────────────────┐
│  LM Studio                              │
├─────────────────────────────────────────┤
│  [搜索模型]  [下载]  [聊天]  [设置]     │
│                                         │
│  推荐模型:                              │
│  - Llama 3 8B Instruct                  │
│  - Qwen 2 7B Instruct                   │
│  - DeepSeek Coder 7B                    │
└─────────────────────────────────────────┘

使用流程

步骤 1:搜索并下载模型

  1. 点击"搜索"标签
  2. 输入模型名(如"llama 3")
  3. 选择量化版本(推荐 Q4_K_M,即 4bit)
  4. 点击"下载"

步骤 2:加载模型

  1. 点击"聊天"标签
  2. 顶部选择刚下载的模型
  3. 等待模型加载(进度条走完)

步骤 3:开始聊天

在对话框输入问题,回车,等待回复。

LM Studio vs Ollama

对比项 Ollama LM Studio
界面 命令行 图形界面
上手难度 ⭐⭐ ⭐⭐⭐⭐⭐
模型数量 更多
自定义 中等
API 服务 支持 支持
适合人群 命令行党、开发者 新手、图形界面爱好者

小攀哥建议: 新手先用 LM Studio 熟悉,熟练后用 Ollama 更灵活。


五、模型选择指南:7B、13B、70B 怎么选?

按参数量分类

参数量 显存需求(4bit) 速度 智能程度 推荐场景
1B-3B 1-2GB 飞快 基础 测试、学习、低配电脑
7B-8B 4-6GB 不错 日常对话、写作、代码
13B-14B 8-10GB 中等 复杂任务、专业场景
30B-34B 16-20GB 很好 高质量输出、研究
70B+ 35GB+ 很慢 接近 GPT-4 顶级需求、多卡并行

按用途分类

用途 推荐模型 理由
中文对话 Qwen2、ChatGLM3 中文优化好
代码生成 DeepSeek-Coder、CodeLlama 专门训练过代码
通用场景 Llama 3、Phi-3 综合能力强
长文本 Yi-34B-200K、Qwen-72B 上下文窗口大
低配电脑 Phi-3、Gemma-2B 体积小速度快

小攀哥的私藏推荐

配置 我的推荐
显存 4GB Phi-3-mini(3.8B)
显存 6GB Llama 3 8B(4bit)
显存 8GB Qwen2 7B(4bit)
显存 12GB Llama 3 8B(全精度)或 Qwen2 72B(4bit)
显存 24GB Qwen2 72B(4bit)或 Llama 3 70B(4bit)

六、常见问题排查

问题 1:显存不够,报错 OOM

症状:

复制代码
Error: CUDA out of memory. Tried to allocate...

解决方案:

方案 操作
换小模型 70B → 13B → 7B
换量化版本 FP16 → INT8 → INT4
关闭其他程序 浏览器、游戏等吃显存的
用 CPU 跑 速度慢但能跑

Ollama 设置 CPU 运行:

复制代码
# 设置只使用 CPU
ollama serve --num-gpu 0

问题 2:下载速度慢

症状: 模型下载要几个小时

解决方案:

方案 操作
换镜像源 用国内镜像(如 Hugging Face 镜像)
暂停继续 支持断点续传,别取消
离线下载 从别人电脑拷贝已下载的模型

Ollama 模型存放位置:

系统 路径
Windows C:\Users\你的用户名\.ollama\models
Mac ~/.ollama/models
Linux ~/.ollama/models

问题 3:生成速度太慢

症状: 每秒只输出几个字,等得着急

解决方案:

原因 解决
模型太大 换小一点的模型
量化太低 用 4bit 代替全精度
显存不足 关闭其他程序,释放显存
CPU 运行 正常现象,考虑升级硬件

速度参考:

配置 模型 速度(字/秒)
RTX 3060 Llama 3 8B(4bit) 约 30-50
RTX 3090 Llama 3 8B(4bit) 约 80-100
RTX 4090 Llama 3 70B(4bit) 约 20-30
M2 Mac Llama 3 8B(4bit) 约 40-60
CPU Llama 3 8B(4bit) 约 2-5

问题 4:中文回答质量差

症状: 模型能听懂中文,但回答是英文或中文不通顺

解决方案:

方案 操作
换中文模型 用 Qwen2、ChatGLM3 等
在 prompt 里指定 "请用中文回答"
微调 用中文数据微调(进阶)

推荐中文模型:

复制代码
# Ollama 命令
ollama run qwen2      # 通义千问
ollama run chatglm3   # 智谱 GLM
ollama run yi         # 零一万物

七、进阶玩法:把本地模型当 API 用

Ollama 开启 API 服务

步骤 1:启动服务

复制代码
ollama serve

步骤 2:调用 API

复制代码
import requests

response = requests.post('http://localhost:11434/api/generate', json={
    'model': 'llama3',
    'prompt': '你好,介绍一下你自己',
    'stream': False
})

print(response.json()['response'])

LM Studio 开启 API 服务

步骤 1:设置里开启本地服务器

步骤 2:调用 API(兼容 OpenAI 格式)

复制代码
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="not-needed"  # 本地不需要
)

response = client.chat.completions.create(
    model="local-model",
    messages=[{"role": "user", "content": "你好"}]
)

print(response.choices[0].message.content)

有什么用? 你可以用自己的代码调用本地模型,集成到自己的项目里!


小结

今天咱们学了:

知识点 核心内容
为什么本地部署 免费、隐私、离线、定制
硬件要求 显存是关键,4bit 量化最划算
Ollama 命令行工具,简单灵活
LM Studio 图形界面,新手友好
模型选择 按显存和用途选,7B-13B 最均衡
常见问题 显存不够、下载慢、生成慢、中文差
进阶玩法 开启 API 服务,集成到自己项目

核心结论:

  • ✅ 本地部署完全免费,隐私安全
  • ✅ 入门推荐 Ollama 或 LM Studio
  • ✅ 7B-13B 模型最均衡,4bit 量化最划算
  • ✅ 有问题别慌,按排查清单一步步来

下篇预告

第四篇咱们讲:《API 调用实战------国内外主流平台》

  • 什么时候该用 API 而不是本地部署
  • OpenAI API 完整教程
  • 国内替代方案(通义、文心、讯飞、智谱)
  • 代码示例(Python、Node.js)
  • 成本对比表(每 100 万 token 多少钱)
  • 免费额度薅羊毛指南

承诺: 看完就能调 API,各大平台一网打尽!🌐


字数统计: 约 2800 字 ✅

小攀哥有话说: 这篇干货满满,建议收藏!跟着做,10 分钟内让大模型在你电脑上跑起来。有任何问题评论区见,小攀哥在线答疑!下篇咱们继续 API 调用实战!

相关推荐
GOU922 小时前
万物互联的基石:物联网通信协议、边缘计算与工业预测性维护深度解析
人工智能·物联网·边缘计算
雨中飘荡的记忆2 小时前
OpenClaw:让 AI 真正“干活“的私有智能体平台
人工智能
码农老李2 小时前
vxWorks7.0 Simpc运行tensorflow lite example
人工智能·tensorflow·neo4j
智能工业品检测-奇妙智能2 小时前
大疆无人机如何通过MQTT获取实时视频流?
运维·服务器·人工智能·mqtt·无人机
Danileaf_Guo2 小时前
零成本AI部署:旧手机变身智能助手全记录
人工智能·智能手机
无巧不成书02182 小时前
[OpenClaw]养龙虾有风险?AI Prompt注入攻击拆解|新手安全防护全指南
人工智能·安全·prompt·开发者·安全风险·ai安全防护
微尘hjx2 小时前
【标注工具 03】labelfast标注工具使用指南(支持YOLO\COCO\VOC格式)v3版本
人工智能·深度学习·yolo·标注工具·labelimg·labelfast·labeliimg
RPA机器人就用八爪鱼2 小时前
RPA+AI融合:智能化OA系统的升级路径与实践应用
人工智能·机器人·自动化·rpa
AI浩2 小时前
CoSMo3D:通过大语言模型引导的规范空间建模实现开放世界可提示的3D语义部件分割
人工智能·3d·语言模型