大模型部署到本地教程

大模型本地部署，就是把 ChatGPT、文心一言、通义千问这类 AI 模型，下载并运行在你自己的电脑、服务器、开发板（香橙派 / 树莓派）或笔记本上，不依赖云端 API，不联网也能用，数据完全私有，速度更快，也更适合毕业设计、竞赛项目、隐私场景使用。

很多人觉得 "部署大模型" 很难，要会深度学习、会写复杂代码，其实不然。现在开源社区已经有极其成熟的工具，只要跟着步骤走，哪怕你只懂一点点 Python、会用命令行，就能把大模型跑起来。

本篇指南以简单、可落地、少踩坑为原则，从零讲解大模型本地部署，包括环境准备、模型选择、工具使用、启动运行、API 对接、常见问题排查，全程通俗、无晦涩术语，适合学生、新手、竞赛选手、个人开发者直接照着做。

一、什么是大模型本地部署？为什么要本地部署？

1.1 什么是本地部署

云端大模型（如在线 ChatGPT）：你的问题 → 发到别人服务器 → 计算 → 返回结果。本地部署大模型：模型文件存在你的电脑 / 设备里 → 直接在本地计算 → 直接出结果。

整个过程不需要外网、不需要充值、不会泄露数据，完全由你控制。

1.2 本地部署的优势

隐私安全：对话、图片、检测数据不会上传第三方。
无调用次数限制：不像在线 API 有额度、限流、收费。
低延迟：不用网络传输，响应更快。
可二次开发：能嵌入自己的项目（Web、小程序、PyQt 界面、检测系统）。
适合毕设 / 竞赛：展示 "本地推理""离线可用" 是很强的亮点。
可定制：能换模型、换参数、做微调、做量化。

1.3 哪些人适合看这份指南

人工智能 / 计算机专业学生
参加计算机设计大赛、华为 ICT 大赛的选手
想做离线智能助手、安全检测系统、聊天机器人的人
不想用在线 API，希望完全自主可控的开发者
有香橙派、RTX 显卡、笔记本想跑 AI 模型的人

二、部署前硬件与系统要求

大模型不是越大越好，硬件决定你能跑什么模型。不用追求超大参数，能用、稳定、简单最重要。

2.1 最低硬件配置（能跑起来）

CPU：普通 Intel i5 / AMD 以上
内存：16GB 及以上（8GB 只能跑极小模型）
显卡（强烈建议）：NVIDIA 独立显卡（RTX 2060 / 3050 / 4060 以上）
硬盘：至少 20GB 空闲空间（模型文件很大）

2.2 推荐配置（流畅运行）

显卡：RTX 3060 12G / 4060 8G 及以上
内存：32GB
系统：Windows 10/11 或 Ubuntu Linux（推荐）

2.3 无显卡也能跑（CPU 模式）

速度会慢很多，但完全可以用
适合演示、毕设、测试，不适合高并发

2.4 系统选择

Windows：最简单，适合新手
Linux（Ubuntu/CentOS）：更稳定，适合部署项目
香橙派 / 树莓派：可以跑轻量模型，需要 NPU 或量化

三、大模型选型：越小越简单，越稳越好

新手不要一上来就选 70B、13B 大模型，根本跑不动。

优先选择量化版、小参数量、开源免费模型：

3.1 文本对话模型（聊天 / 问答 / 智能体）

Qwen-1.8B / Qwen-7B-Chat-Int4
Llama 2 7B Chat（量化版）
Mistral-7B-v0.1
Ziya-LLaMA-13B（量化后可跑）

3.2 视觉模型（看图理解 / 检测）

Qwen-VL-Chat-Int4
Llava-1.5-7B
CogVLM-small

3.3 新手首选

Qwen2.5-1.8B-Instruct / Qwen2.5-7B-Instruct-Int4

中文极强
体积小
部署简单
支持 CPU / GPU
完全免费开源

四、部署工具选择（最简单的三种）

不用自己写推理代码，用成熟工具一键启动。

4.1 Ollama（最简单，强烈推荐新手）

一条命令启动模型
自动下载、自动配置
支持 Windows / Mac / Linux
自带 API 接口

4.2 Text Generation WebUI

图形界面
功能最强
支持加载各种模型格式：.bin、.safetensors、GGUF、GPTQ
适合调试、演示

4.3 LlamaCpp

极轻量
专注 CPU 推理
适合嵌入式设备、香橙派

本篇以 Ollama + Text Generation WebUI 为主，最简单、最稳。

五、方法一：Ollama 极速部署（10 分钟跑通）

Ollama 是目前最简单的本地大模型部署工具，没有之一。

5.1 下载安装 Ollama

官网：https://ollama.com/

Windows 直接下载安装包
一路下一步，安装完成

5.2 一条命令跑模型

打开 CMD / 终端，输入：

plaintext

复制代码

ollama run qwen:7b

自动下载、自动配置、自动启动。

启动成功后，直接输入问题即可对话。

5.3 启动 API 服务（给你的项目调用）

Ollama 默认自带 API，运行后自动开启：

plaintext

复制代码

http://localhost:11434/api/chat

你的 Python/Java/ 前端项目都可以调用。

5.4 更换模型

plaintext

复制代码

ollama run llama2
ollama run mistral
ollama run qwen:1.8b

5.5 优点

不用装 CUDA
不用配 Python 环境
不用处理模型格式
不会报错
最适合新手、毕设、演示

5.6 缺点

定制性稍弱，但 90% 人完全够用。

六、方法二：Text Generation WebUI 图形化部署

适合想看到界面、调试参数、做项目展示的人。

6.1 安装 Python

安装 3.10 或 3.11 版本。

6.2 安装 Git

6.3 克隆项目

plaintext

复制代码

git clone https://github.com/oobabooga/text-generation-webui.git
cd text-generation-webui

6.4 一键启动

Windows：

plaintext

复制代码

start_windows.bat

Linux：

plaintext

复制代码

./start_linux.sh

脚本会自动安装所有依赖。

6.5 下载模型

去 HuggingFace 下载模型，例如：

plaintext

复制代码

Qwen2.5-7B-Instruct-GPTQ

放在：

plaintext

复制代码

models/ 文件夹

6.6 加载模型

打开网页：http://localhost:7860
点击 Model 页
刷新模型列表
点击加载

加载完成即可聊天。

6.7 开启 API

在模式里选择 api，即可提供接口供外部调用。

七、方法三：纯 Python 代码部署（适合项目集成）

如果你要把模型嵌入自己的系统（安全检测、智能体、Web 网站），用这种。

7.1 安装依赖

plaintext

复制代码

pip install torch transformers accelerate sentencepiece

7.2 最小运行代码

python

运行

复制代码

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "Qwen/Qwen2.5-1.8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

prompt = "你是谁？"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

直接运行，即可本地推理。

7.3 优点

完全可控
可嵌入任何项目
可修改推理逻辑、前后处理

7.4 缺点

稍微麻烦一点点，但最适合做正式项目。

八、视觉大模型（VL）本地部署

如果你要做看图理解、安全检测、设备缺陷识别、工地监控，部署视觉模型。

8.1 视觉模型部署（Qwen-VL）

python

运行

复制代码

from transformers import AutoModelForVision2Seq, AutoTokenizer

model = AutoModelForVision2Seq.from_pretrained("Qwen/Qwen-VL-Chat-Int4")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-VL-Chat-Int4")

传入图片路径即可：

plaintext

复制代码

图片: ./photo.jpg 这张图有什么问题？

8.2 适用场景

安全装备检测（安全帽 / 反光衣）
设备缺陷识别
校园防霸凌图像分析
智能巡检系统

九、模型量化：让低配电脑也能跑大模型

量化就是把模型变小，几乎不损失效果。

常用量化格式：

Int4
Int8
GGUF
GPTQ

新手直接下载 Int4 模型，不用自己量化。

量化后：

7B 模型只占 4GB 显存
1.8B 模型占 1GB 不到
笔记本也能流畅运行

十、本地部署后如何接入你的项目？

大模型跑起来后，最重要的是给你的系统调用。

10.1 REST API 调用（最常用）

Ollama / WebUI 都提供 API：

plaintext

复制代码

POST http://localhost:11434/api/chat
{
  "model": "qwen:7b",
  "messages": [{"role": "user", "content": "今天哪个区域违规最多"}]
}

前端、小程序、Java 后端都能调用。

10.2 Python 对接

python

运行

复制代码

import requests
res = requests.post("http://localhost:11434/api/chat", json={...})
print(res.json())

10.3 与 Dify 智能体对接

你可以：

Dify 选择「自定义模型」
填入本地 API 地址
智能体直接调用本地大模型

实现完全离线智能体。

十一、常见问题与错误解决（新手必看）

11.1 显存不足

换 Int4 量化模型
启用 load_in_4bit=True
降低模型大小（1.8B → 7B 顺序尝试）

11.2 CUDA out of memory

关闭其他占显存软件
使用 CPU 模式
换更小模型

11.3 模型下载慢

使用镜像站
手动下载模型文件放入对应目录

11.4 运行特别慢

无显卡 → 正常
有显卡但没启用 → 检查 CUDA 是否安装

11.5 报错 "找不到模型"

路径不能有中文
文件名不要改
放在正确文件夹

11.6 生成内容乱、重复

调 temperature（0.7 最合适）
调 max_new_tokens
换更好的模型

十二、本地部署大模型的实际应用场景

12.1 离线智能问答助手

不联网、可私有化、适合机房 / 工地 / 内网使用。

12.2 安全检测系统

视觉模型本地分析摄像头画面，实时告警。

12.3 毕设 / 竞赛项目

智慧工厂安全系统
校园防霸凌语音 / 图像检测
智能巡检机器人
离线聊天智能体

12.4 私有化 ChatGPT

企业 / 个人不想数据外泄，本地部署最安全。

12.5 嵌入式部署

香橙派 / 机器人 / 边缘设备运行轻量 AI 模型。

十三、部署大模型的几个重要认知（避免走弯路）

不是参数越大越好，1.8B 足够做毕设、智能体、问答。
量化不是降质，Int4 几乎不影响使用。
本地部署≠必须高端显卡，CPU 也能跑。
不用懂深度学习也能部署，工具已经极度成熟。
稳定 > 炫酷，能跑通、不报错最重要。
项目优先考虑 API 调用，方便对接前后端。

十四、总结：大模型本地部署极简心法

大模型本地部署，本质就三步：

选一个小模型、量化版
用简单工具（Ollama / WebUI）一键启动
通过 API 接入你的项目

不需要复杂环境、不需要训模型、不需要高深数学。只要你会打开终端、会复制命令，就能在 10～30 分钟内跑通一个完全属于你自己的本地大模型。