如何本地部署seepseek

前言

[本地部署 AI 助手的基本条件](#本地部署 AI 助手的基本条件)

部署步骤

[1. 选择开源模型](#1. 选择开源模型)

2.安装环境

2.1使用ollama的方案

2.2个性化安装

[1. 选择量化版本](#1. 选择量化版本)

[2. 启用显存优化](#2. 启用显存优化)

[3. 性能调优](#3. 性能调优)

4.测试

前言

由于最近deepseek实在是太火啦，到处都在推动它。我们公司最近也开始推动这个了，我怀疑后续可能会使用ai代替驱动的开发，只留少量的人进行调试。因为汽车电子这个行业对安全性的要求太高了。一般秉持的原则就是能复用就复用能抄就抄。没经过量产验证的代码很少有整车厂愿意用。而且万一出现了问题，没人可以承担这个责任。于是这个行业的底层软件开发，在我看来是非常容易被自动化替代的。ai相当于是更高效的自动化程序。加快了人力被替代的进程罢了。

本地部署 AI 助手的基本条件

硬件要求
- GPU（推荐）：NVIDIA GPU（支持 CUDA，显存 ≥ 8GB，如 RTX 3080+）
- 内存：≥ 16GB
- 存储：≥ 50GB（模型文件通常较大）
软件环境
- 操作系统：Linux（推荐 Ubuntu）或 Windows（10以上）
- 框架：PyTorch/TensorFlow + Transformers 库
- 依赖：Python ≥ 3.8, CUDA/cuDNN（GPU加速）

部署步骤

1. 选择开源模型

ai助手核心技术基于类似 GPT 的架构，但完整模型无法直接公开部署。可以选择以下替代方案：
- 小型模型（适合本地运行）：
  - Llama 3（需申请访问权限）
  - Mistral 7B
  - Phi-3（微软轻量级模型）
- 开源中文模型：
  - ChatGLM3-6B
  - Qwen-7B

还有我们今天的主角deepseek。他的类型目前分为R1、V3、VL2这几种。其中R1是目前世界上最牛的ai，部署他的话FP16需要1.324TB的现存或者内存,FP32的话需要2.684TB的显存或者内存。不论选择哪种方案都不是我们普通人可以承担的起的。

如果你想用V3的话，即现在直接用deepseek访问门户不勾选深度思考时的能力，需要将近800GB的显存或者内存，这个我们普通人也是承担不起的。

普通人一台主机想搞定的话只有这几个选项了

我当前的机器可以本地部署 DeepSeek-R1-Distill 系列的小模型

DeepSeek-R1-Distill-Qwen-1.5B

DeepSeek-R1-Distill-Qwen-7B

DeepSeek-R1-Distill-Llama-8B

DeepSeek-R1-Distill-Qwen-14B

DeepSeek-R1-Distill-Qwen-32B

DeepSeek-R1-Distill-Llama-70B

1B就是10亿个参数，我现在的显卡只有12G所以最多支持一下7B本地部署。

一个7B参数的模型在FP16精度下大约需要14GB显存（每个参数2字节），但如果使用量化到INT8（每个参数1字节），显存需求会减半，大约7GB，而INT4则进一步减少到3.5GB左右。

简单计算一下我能选的方案有两种：

DeepSeek-7B（70 亿参数）
- 显存需求：
  - FP16 精度：约 14GB 显存（直接加载会超出你的 12GB 显存）
  - INT8 量化：约 7-8GB 显存（适合你的 12GB 显存）
  - INT4 量化：约 4-5GB 显存（显存占用最低，推理速度稍慢）
- 内存需求：模型权重约 14GB，加载时内存占用 ≤ 20GB（你的 32GB 内存完全足够）
DeepSeek-13B（130 亿参数）
- 显存需求：
  - 即使使用 INT4 量化（约 8-10GB 显存），剩余的显存可能不足以处理推理时的中间计算（如注意力机制缓存）。
  - 若强行部署，需启用 CPU Offloading（将部分计算卸载到内存），但推理速度会大幅下降（可能低于 1 token/秒）。

项目地址：

DeepSeek · GitHub

公开的模型地址：

https://huggingface.co/deepseek-ai

2.安装环境

这里方案有很多，想简单点的话可以直接使用ollama。如果想个性化一些也可安装一些python架构自己管理

2.1使用ollama的方案

Download Ollama on macOS

非小白可以直接跳过~

ollama的logo是个羊驼还挺可爱的，不能选择安装路径只能默认安装到C盘，有点难受，还好我留了800G

输入

bash 复制代码

ollama -h

可以获取帮助信息

如果想让颜色不这么单调也可以用我之前推荐过的那个windterm

deepseek-r1

选择一个自己可以用的模型

这里的应该都不是满血版的，不过别慌，前面讲的那些不是没用，如果不用ollama来部署，直接去官网搞每个型号的非量化版本还是要按照我们之前的计算公式来的滴。

这里我们选个14b的试试

因为网站在境外，所以我们的下载速度不是很快

下载完成后就可以自动部署

2.2个性化安装

1. 选择量化版本

从 Hugging Face 下载预量化的 DeepSeek-7B 模型（如 deepseek-7b-int4 或 deepseek-7b-int8）：

python 复制代码

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "deepseek-ai/deepseek-7b-int4"  # 以 INT4 量化为例
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")  # 自动分配GPU/CPU

OpenCSG(开放传神) 打造 Hybrid Huggingface plus 开源社区开放传神 OpenCSG 传神社区官网

可以直接登录，使用页面下载，也可以先下载一下工具，用命令下载。

bash 复制代码

git lfs install
git clone https://opencsg.com/models/deepseek-ai/Janus-Pro-7B.git

如果不想要lfs，在环境变量中设置一下这个

GIT_LFS_SKIP_SMUDGE=1

这种方式更适合ubuntu部署哦。

2. 启用显存优化

使用 accelerate 或 bitsandbytes 库进一步压缩显存：

python 复制代码

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    load_in_4bit=True,  # 4 比特量化
    device_map="auto",
    torch_dtype=torch.float16
)

3. 性能调优

限制上下文长度 ：将 max_seq_length 设为 2048 或更低，减少显存占用。
批处理大小 ：保持 batch_size=1（单条输入）。
使用 Flash Attention ：安装 flash-attn 库加速注意力计算（需 NVIDIA GPU 支持）。

4.测试

可以用下面的代码进行int4的测试

python 复制代码

# 安装依赖
pip install transformers accelerate bitsandbytes

# 代码示例
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "deepseek-ai/deepseek-7b-chat-int4"  # 假设使用聊天优化版
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    load_in_4bit=True,
    torch_dtype=torch.float16
)

# 交互测试
input_text = "如何学习Python？"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))