本地部署DeepSeek-R1模型详细流程

本地部署DeepSeek-R1模型详细流程


一、版本选择

本地部署就是自己部署DeepSeek-R1模型,使用本地的算力。

主要瓶颈:内存+显存的大小。

特点:此方案不用联网。

适合:有数据隐私方面担忧的或者保密单位根本就不能上网的。

满血版:DeepSeek R1671B 全量模型的文件体积高达 720GB,对于绝大部分人而言,本地资源有限,很难达到这个配置。

蒸馏版

  • 开源2+6个模型。
  • R1预览版和正式版的参数高达660B,非一般公司能用。
  • 为进一步平权,于是他们就蒸馏出了6个小模型,并开源给社区。
  • 最小的为1.5B参数,10G显存可跑。

如果你要在个人电脑上部署,一般选择其他架构的蒸馏模型,本质是微调后的Llama或Qwen模型,基本32B以下,并不能完全发挥出DeepSeek R1的实力。


二、部署过程

比较流行的是使用ollama

步骤1:下载Ollama

步骤2:安装Ollama 傻瓜式安装

  1. 打开命令行(Windows用户可以通过 win+r 输入 cmd)。

  2. 在命令行中输入以下命令来验证是否安装成功:

    sh 复制代码
    ollama -v

步骤3:选择r1模型

步骤4:选择版本

  • b代表10亿参数量,7b就是70亿参数量。
  • 这里的671B是 HuggingFace经过4-bit 标准量化的,所以大小是404GB。
  • Ollama 支持 CPU 与 GPU 混合推理。将内存与显存之和大致视为系统的"总内存空间"。

建议:如果你想运行404GB的671B,建议你的内存+显存能达到500GB以上。

步骤5:本地运行DeepSeek模型

在命令行中,输入如下命令:

sh 复制代码
ollama run deepseek-r1:7b

首次运行会下载对应模型文件。下载支持断点续传,如果下载中速度变慢,可以鼠标点击命令行窗口,然后 ctrl+c 取消,取消后按方向键"上",可以找到上一条命令,即"ollama run deepseek-r1:7b",按下回车会重新链接,按照之前进度接着下载。

步骤6:查看已有模型

查询已有模型:

sh 复制代码
ollama list

后续要运行模型,仍然使用之前的命令:

sh 复制代码
ollama run deepseek-r1:7b

三、使用客户端工具

本地部署好模型之后,在命令行操作还是不太方便,我们继续使用一些客户端工具来使用。

Cherry Studio的下载
Cherry Studio下载地址

以Cherry Studio为例访问7b的蒸馏模型

  1. 下载并安装Cherry Studio。
  2. 启动Cherry Studio,访问7b的蒸馏模型。
  3. 如果列表没有r1模型,则是之前没有安装好。

四、修改models文件夹路径(可选)

模型默认会下载到:
C:\Users\你的用户名\.ollama\目录下的 models文件夹

如果想修改模型的存放位置,做如下配置:

  1. 拷贝 models 文件夹到你指定的目录,比如我剪切到 E:\ollama 下。

  2. 添加环境变量:

    • 右键"我的电脑",选择"属性"。

    • 按如下方式配置:

      plaintext 复制代码
      C:\Users\你的用户名\.ollama\models
  3. 重启Ollama客户端生效。

注意:修改完之后,需要重启Ollama客户端,右键图标,选择退出,重新运行Ollama。

验证是否生效:重新运行Ollama之后,重新打开命令行,输入命令 ollama list 查看。


五、其它方式:服务器部署

在企业中,想要私有化部署满血版DeepSeek-R1,即671B版本,需要有更好的硬件配置。

服务器可以是物理机,也可以是云服务器。

使用Ollama提供的经过量化压缩的671B模型的大小是404GB,建议内存+显存≥500 GB,举例几种性价比配置如下:

  • Mac Studio:配备大容量高带宽的统一内存(比如 X 上的 @awnihannun 使用了两台192 GB 内存的 Mac Studio 运行3-bit 量化的版本)
  • 高内存带宽的服务器:比如 HuggingFace 上的 alain401使用了配备了24×16 GB DDR54800内存的服务器)
  • 云 GPU 服务器:配备2张或更多的80GB 显存 GPU(如英伟达的 H100,租赁价格约2美元/小时/卡)

在这些硬件上的运行速度可达到10+ token /秒。

部署流程与个人电脑部署7B的流程没有太大区别,都是以下几个步骤:

  1. 根据服务器的操作系统,下载对应版本的Ollama客户端;
  2. 运行Ollama,执行 Ollama 命令运行671B版本模型;首次执行自动下载模型;
  3. 使用客户端工具/自己开发页面/代码调用,对接Ollama的R1模型;
相关推荐
静听松涛13318 小时前
大语言模型长上下文技术突破:如何处理超长文本的注意力机制与架构图解
人工智能·语言模型·架构
我送炭你添花18 小时前
电子世界的奇妙冒险:从一个电阻开始(系列目录)
人工智能·单片机·嵌入式硬件·fpga开发
数据智能老司机18 小时前
用于构建多智能体系统的智能体架构模式——可解释性与合规性的智能体模式
人工智能·llm·agent
数据智能老司机18 小时前
用于构建多智能体系统的智能体架构模式——人类—智能体交互模式
人工智能·llm·agent
一个处女座的程序猿18 小时前
LLMs之Benchmark:《CL-bench: A Benchmark for Context Learn》翻译与解读
人工智能·benchmark·llms
Node全栈18 小时前
AI时代,不准备换行吗?
人工智能
数据智能老司机18 小时前
用于构建多智能体系统的智能体架构模式——高级适配:打造具备学习能力的智能体
人工智能·llm·agent
Coder_Boy_18 小时前
Java开发者破局指南:跳出内卷,借AI赋能,搭建系统化知识体系
java·开发语言·人工智能·spring boot·后端·spring
Liue6123123118 小时前
【YOLO11】基于C2CGA算法的金属零件涂胶缺陷检测与分类
人工智能·算法·分类
熵减纪元18 小时前
人形机器人周末炸场:Atlas后空翻回归、宇树零下47度暴走、中国Bolt跑出10m/s | 2.8日报
人工智能·机器人·人形机器人