大模型入门第三篇:本地部署大模型——完全免费跑起来

目录

[开篇:不想花钱调 API?本地部署安排!](#开篇:不想花钱调 API?本地部署安排!)

一、为什么要本地部署?

[本地部署 vs API 调用](#本地部署 vs API 调用)

适合本地部署的场景

二、硬件要求:你的电脑能跑吗?

核心指标:显存(VRAM)

硬件配置推荐表

没有独立显卡怎么办?

三、Ollama:命令行党的首选

[什么是 Ollama?](#什么是 Ollama?)

[安装步骤(Windows 版)](#安装步骤(Windows 版))

下载并运行模型

常用命令

[四、LM Studio:图形化新手友好](#四、LM Studio:图形化新手友好)

[什么是 LM Studio?](#什么是 LM Studio?)

安装步骤

使用流程

[LM Studio vs Ollama](#LM Studio vs Ollama)

[五、模型选择指南:7B、13B、70B 怎么选?](#五、模型选择指南:7B、13B、70B 怎么选?)

按参数量分类

按用途分类

小攀哥的私藏推荐

六、常见问题排查

[问题 1:显存不够,报错 OOM](#问题 1:显存不够,报错 OOM)

[问题 2:下载速度慢](#问题 2:下载速度慢)

[问题 3:生成速度太慢](#问题 3:生成速度太慢)

[问题 4:中文回答质量差](#问题 4:中文回答质量差)

[七、进阶玩法:把本地模型当 API 用](#七、进阶玩法:把本地模型当 API 用)

[Ollama 开启 API 服务](#Ollama 开启 API 服务)

[LM Studio 开启 API 服务](#LM Studio 开启 API 服务)

小结

下篇预告


开篇:不想花钱调 API?本地部署安排!

上篇咱们搞懂了 Transformer 是啥,可能有同学要问了:

"小攀哥,道理我都懂,但我想实际玩玩大模型,不想花钱调 API,有啥办法?"

有!本地部署安排上!

今天小攀哥带你在自己电脑上跑大模型,完全免费,想怎么玩怎么玩。不用担心 API 额度、不用担心隐私泄露、更不用担心断网就用不了!


一、为什么要本地部署?

本地部署 vs API 调用

对比项 API 调用 本地部署
成本 按量付费,用多了贵 一次投入硬件,之后免费
隐私 数据要传到云端 数据完全本地,不出电脑
速度 受网络影响 本地运行,延迟低
离线 ❌ 必须联网 ✅ 断网也能用
定制 有限 可以微调、修改
门槛 低,注册就能用 需要一定硬件和配置能力
适合人群 新手、轻度用户 爱折腾、重度用户、隐私敏感

适合本地部署的场景

场景 为什么选本地
学习研究 随便折腾,不心疼钱
隐私敏感 文档、代码不出本地
高频使用 API 费用扛不住
离线环境 内网、无网环境
定制需求 需要微调、改模型

二、硬件要求:你的电脑能跑吗?

核心指标:显存(VRAM)

记住这个公式:

复制代码
模型参数量 × 2 = 所需显存(GB)

例如:
7B 模型 → 约 14GB 显存(全精度)
7B 模型 → 约 4GB 显存(4bit 量化)← 推荐
13B 模型 → 约 8GB 显存(4bit 量化)
70B 模型 → 约 40GB 显存(4bit 量化)

什么是量化? 简单说就是"压缩模型",用更少的精度换取更小的显存占用。

量化等级 显存占用 精度损失 推荐度
FP16(全精度) 100% ⭐⭐(显存够的话)
INT8(8bit) 50% 很小 ⭐⭐⭐
INT4(4bit) 25% 轻微 ⭐⭐⭐⭐⭐(推荐)
INT2(2bit) 12.5% 明显 ⭐(不推荐)

硬件配置推荐表

配置等级 显卡 内存 能跑的模型 预算
入门 GTX 1660 6G 16GB 7B(4bit) 二手约 1000 元
主流 RTX 3060 12G 32GB 13B(4bit)、7B(全精度) 约 2000 元
进阶 RTX 3090 24G 64GB 30B(4bit)、70B(重度量化) 二手约 5000 元
发烧 RTX 4090 24G 64GB+ 70B(4bit) 约 15000 元
Mac 党 M1/M2/M3 统一内存 16GB+ 13B(4bit) 看苹果定价😅

没有独立显卡怎么办?

方案 说明 推荐度
CPU 运行 用内存代替显存,速度慢但能跑 ⭐⭐⭐
云端租用 租 GPU 云服务器,按小时计费 ⭐⭐⭐⭐
Colab 免费额度 Google Colab 免费 T4 显卡 ⭐⭐⭐
小模型 跑 1B、3B 这种小模型 ⭐⭐

小攀哥建议: 入门先用 CPU 跑小模型试试水,确定喜欢再考虑买显卡。


三、Ollama:命令行党的首选

什么是 Ollama?

Ollama 是一个开源的大模型本地运行工具,特点:

  • ✅ 安装简单,一条命令搞定
  • ✅ 模型库丰富,一键下载
  • ✅ 支持 Windows/Mac/Linux
  • ✅ 完全免费,开源

官网:https://ollama.ai

安装步骤(Windows 版)

步骤 1:下载安装包

访问 https://ollama.ai/download,下载 Windows 安装包。

步骤 2:一键安装

双击安装包,一路"下一步",完事!

步骤 3:验证安装

打开 PowerShell 或 CMD,输入:

复制代码
ollama --version

看到版本号就说明安装成功了!

下载并运行模型

步骤 1:选择模型

Ollama 支持的模型:

模型 大小 适合场景 命令
Llama 3 8B/70B 通用,Meta 出品 ollama run llama3
Qwen2 7B/72B 中文优化好 ollama run qwen2
DeepSeek 7B/67B 代码能力强 ollama run deepseek-coder
Phi-3 3.8B 小体积,速度快 ollama run phi3
Gemma 7B Google 出品 ollama run gemma

步骤 2:一键下载并运行

复制代码
ollama run llama3

发生了什么?

  1. 自动下载模型(首次需要时间)
  2. 下载完成后自动启动
  3. 进入对话界面

示例对话:

复制代码
$ ollama run llama3

>>> 你好,介绍一下你自己
你好!我是 Llama 3,一个由 Meta 开发的大型语言模型...

>>> 帮我写个 Python 函数,计算斐波那契数列
def fibonacci(n):
    if n <= 1:
        return n
    return fibonacci(n-1) + fibonacci(n-2)

>>> 退出
(输入 /bye 或 Ctrl+D 退出)

常用命令

命令 作用
ollama run <模型名> 下载并运行模型
ollama list 查看已下载的模型
ollama pull <模型名> 只下载不运行
ollama rm <模型名> 删除模型
ollama ps 查看运行中的模型

四、LM Studio:图形化新手友好

什么是 LM Studio?

LM Studio 是一个图形化的大模型运行工具,特点:

  • ✅ 图形界面,不用敲命令
  • ✅ 内置模型市场,一键下载
  • ✅ 支持聊天、补全、嵌入等多种模式
  • ✅ 可以当本地 API 服务器用

官网:https://lmstudio.ai

安装步骤

步骤 1:下载安装包

访问 https://lmstudio.ai,下载对应系统版本。

步骤 2:安装

双击安装包,按提示安装。

步骤 3:启动

打开 LM Studio,界面长这样:

复制代码
┌─────────────────────────────────────────┐
│  LM Studio                              │
├─────────────────────────────────────────┤
│  [搜索模型]  [下载]  [聊天]  [设置]     │
│                                         │
│  推荐模型:                              │
│  - Llama 3 8B Instruct                  │
│  - Qwen 2 7B Instruct                   │
│  - DeepSeek Coder 7B                    │
└─────────────────────────────────────────┘

使用流程

步骤 1:搜索并下载模型

  1. 点击"搜索"标签
  2. 输入模型名(如"llama 3")
  3. 选择量化版本(推荐 Q4_K_M,即 4bit)
  4. 点击"下载"

步骤 2:加载模型

  1. 点击"聊天"标签
  2. 顶部选择刚下载的模型
  3. 等待模型加载(进度条走完)

步骤 3:开始聊天

在对话框输入问题,回车,等待回复。

LM Studio vs Ollama

对比项 Ollama LM Studio
界面 命令行 图形界面
上手难度 ⭐⭐ ⭐⭐⭐⭐⭐
模型数量 更多
自定义 中等
API 服务 支持 支持
适合人群 命令行党、开发者 新手、图形界面爱好者

小攀哥建议: 新手先用 LM Studio 熟悉,熟练后用 Ollama 更灵活。


五、模型选择指南:7B、13B、70B 怎么选?

按参数量分类

参数量 显存需求(4bit) 速度 智能程度 推荐场景
1B-3B 1-2GB 飞快 基础 测试、学习、低配电脑
7B-8B 4-6GB 不错 日常对话、写作、代码
13B-14B 8-10GB 中等 复杂任务、专业场景
30B-34B 16-20GB 很好 高质量输出、研究
70B+ 35GB+ 很慢 接近 GPT-4 顶级需求、多卡并行

按用途分类

用途 推荐模型 理由
中文对话 Qwen2、ChatGLM3 中文优化好
代码生成 DeepSeek-Coder、CodeLlama 专门训练过代码
通用场景 Llama 3、Phi-3 综合能力强
长文本 Yi-34B-200K、Qwen-72B 上下文窗口大
低配电脑 Phi-3、Gemma-2B 体积小速度快

小攀哥的私藏推荐

配置 我的推荐
显存 4GB Phi-3-mini(3.8B)
显存 6GB Llama 3 8B(4bit)
显存 8GB Qwen2 7B(4bit)
显存 12GB Llama 3 8B(全精度)或 Qwen2 72B(4bit)
显存 24GB Qwen2 72B(4bit)或 Llama 3 70B(4bit)

六、常见问题排查

问题 1:显存不够,报错 OOM

症状:

复制代码
Error: CUDA out of memory. Tried to allocate...

解决方案:

方案 操作
换小模型 70B → 13B → 7B
换量化版本 FP16 → INT8 → INT4
关闭其他程序 浏览器、游戏等吃显存的
用 CPU 跑 速度慢但能跑

Ollama 设置 CPU 运行:

复制代码
# 设置只使用 CPU
ollama serve --num-gpu 0

问题 2:下载速度慢

症状: 模型下载要几个小时

解决方案:

方案 操作
换镜像源 用国内镜像(如 Hugging Face 镜像)
暂停继续 支持断点续传,别取消
离线下载 从别人电脑拷贝已下载的模型

Ollama 模型存放位置:

系统 路径
Windows C:\Users\你的用户名\.ollama\models
Mac ~/.ollama/models
Linux ~/.ollama/models

问题 3:生成速度太慢

症状: 每秒只输出几个字,等得着急

解决方案:

原因 解决
模型太大 换小一点的模型
量化太低 用 4bit 代替全精度
显存不足 关闭其他程序,释放显存
CPU 运行 正常现象,考虑升级硬件

速度参考:

配置 模型 速度(字/秒)
RTX 3060 Llama 3 8B(4bit) 约 30-50
RTX 3090 Llama 3 8B(4bit) 约 80-100
RTX 4090 Llama 3 70B(4bit) 约 20-30
M2 Mac Llama 3 8B(4bit) 约 40-60
CPU Llama 3 8B(4bit) 约 2-5

问题 4:中文回答质量差

症状: 模型能听懂中文,但回答是英文或中文不通顺

解决方案:

方案 操作
换中文模型 用 Qwen2、ChatGLM3 等
在 prompt 里指定 "请用中文回答"
微调 用中文数据微调(进阶)

推荐中文模型:

复制代码
# Ollama 命令
ollama run qwen2      # 通义千问
ollama run chatglm3   # 智谱 GLM
ollama run yi         # 零一万物

七、进阶玩法:把本地模型当 API 用

Ollama 开启 API 服务

步骤 1:启动服务

复制代码
ollama serve

步骤 2:调用 API

复制代码
import requests

response = requests.post('http://localhost:11434/api/generate', json={
    'model': 'llama3',
    'prompt': '你好,介绍一下你自己',
    'stream': False
})

print(response.json()['response'])

LM Studio 开启 API 服务

步骤 1:设置里开启本地服务器

步骤 2:调用 API(兼容 OpenAI 格式)

复制代码
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="not-needed"  # 本地不需要
)

response = client.chat.completions.create(
    model="local-model",
    messages=[{"role": "user", "content": "你好"}]
)

print(response.choices[0].message.content)

有什么用? 你可以用自己的代码调用本地模型,集成到自己的项目里!


小结

今天咱们学了:

知识点 核心内容
为什么本地部署 免费、隐私、离线、定制
硬件要求 显存是关键,4bit 量化最划算
Ollama 命令行工具,简单灵活
LM Studio 图形界面,新手友好
模型选择 按显存和用途选,7B-13B 最均衡
常见问题 显存不够、下载慢、生成慢、中文差
进阶玩法 开启 API 服务,集成到自己项目

核心结论:

  • ✅ 本地部署完全免费,隐私安全
  • ✅ 入门推荐 Ollama 或 LM Studio
  • ✅ 7B-13B 模型最均衡,4bit 量化最划算
  • ✅ 有问题别慌,按排查清单一步步来

下篇预告

第四篇咱们讲:《API 调用实战------国内外主流平台》

  • 什么时候该用 API 而不是本地部署
  • OpenAI API 完整教程
  • 国内替代方案(通义、文心、讯飞、智谱)
  • 代码示例(Python、Node.js)
  • 成本对比表(每 100 万 token 多少钱)
  • 免费额度薅羊毛指南

承诺: 看完就能调 API,各大平台一网打尽!🌐


字数统计: 约 2800 字 ✅

小攀哥有话说: 这篇干货满满,建议收藏!跟着做,10 分钟内让大模型在你电脑上跑起来。有任何问题评论区见,小攀哥在线答疑!下篇咱们继续 API 调用实战!

相关推荐
AI前沿资讯10 小时前
AI3D角色生产如何减少返工?用 V2Fun 前移建模与动画流程
人工智能·3d
泛联新安10 小时前
Omni Security 如何让安全检测速度跟上 AI 编码速度
ai·漏洞挖掘·智能体
aqi0010 小时前
15天学会AI应用开发(十一)从TXT文件构建RAG知识库
人工智能·python·大模型·ai编程·ai应用
AIJWAI10 小时前
朱雀 AI 检测的核心逻辑是什么?
人工智能
汤姆yu10 小时前
macOS系统下Aider完整安装、配置与实战使用教程
大数据·人工智能·算法·macos·github·copilot
阿部多瑞 ABU10 小时前
软权力:先行植入的意义置换 ——文化殖民的结构逻辑与资本剥削的后续包装
人工智能
Sam092710 小时前
【AI 算法精讲 14】TF-IDF:词频与逆文档频率
人工智能·python·算法·ai
m0_6265352010 小时前
MRR(Mean Reciprocal Rank)和 NDCG(Normalized Discounted Cumulative Gain)
人工智能·机器学习
长和信泰光伏储能10 小时前
探索未来能源:光伏储能技术解析
大数据·人工智能·能源
寻道码路10 小时前
LangChain4j Java AI 应用开发实战(二十六):多模型集成策略 —— OpenAI、DeepSeek、阿里百炼混合使用
java·开发语言·人工智能·ai