本地部署DeepSeek-R1模型详细流程

本地部署DeepSeek-R1模型详细流程


一、版本选择

本地部署就是自己部署DeepSeek-R1模型,使用本地的算力。

主要瓶颈:内存+显存的大小。

特点:此方案不用联网。

适合:有数据隐私方面担忧的或者保密单位根本就不能上网的。

满血版:DeepSeek R1671B 全量模型的文件体积高达 720GB,对于绝大部分人而言,本地资源有限,很难达到这个配置。

蒸馏版

  • 开源2+6个模型。
  • R1预览版和正式版的参数高达660B,非一般公司能用。
  • 为进一步平权,于是他们就蒸馏出了6个小模型,并开源给社区。
  • 最小的为1.5B参数,10G显存可跑。

如果你要在个人电脑上部署,一般选择其他架构的蒸馏模型,本质是微调后的Llama或Qwen模型,基本32B以下,并不能完全发挥出DeepSeek R1的实力。


二、部署过程

比较流行的是使用ollama

步骤1:下载Ollama

步骤2:安装Ollama 傻瓜式安装

  1. 打开命令行(Windows用户可以通过 win+r 输入 cmd)。

  2. 在命令行中输入以下命令来验证是否安装成功:

    sh 复制代码
    ollama -v

步骤3:选择r1模型

步骤4:选择版本

  • b代表10亿参数量,7b就是70亿参数量。
  • 这里的671B是 HuggingFace经过4-bit 标准量化的,所以大小是404GB。
  • Ollama 支持 CPU 与 GPU 混合推理。将内存与显存之和大致视为系统的"总内存空间"。

建议:如果你想运行404GB的671B,建议你的内存+显存能达到500GB以上。

步骤5:本地运行DeepSeek模型

在命令行中,输入如下命令:

sh 复制代码
ollama run deepseek-r1:7b

首次运行会下载对应模型文件。下载支持断点续传,如果下载中速度变慢,可以鼠标点击命令行窗口,然后 ctrl+c 取消,取消后按方向键"上",可以找到上一条命令,即"ollama run deepseek-r1:7b",按下回车会重新链接,按照之前进度接着下载。

步骤6:查看已有模型

查询已有模型:

sh 复制代码
ollama list

后续要运行模型,仍然使用之前的命令:

sh 复制代码
ollama run deepseek-r1:7b

三、使用客户端工具

本地部署好模型之后,在命令行操作还是不太方便,我们继续使用一些客户端工具来使用。

Cherry Studio的下载
Cherry Studio下载地址

以Cherry Studio为例访问7b的蒸馏模型

  1. 下载并安装Cherry Studio。
  2. 启动Cherry Studio,访问7b的蒸馏模型。
  3. 如果列表没有r1模型,则是之前没有安装好。

四、修改models文件夹路径(可选)

模型默认会下载到:
C:\Users\你的用户名\.ollama\目录下的 models文件夹

如果想修改模型的存放位置,做如下配置:

  1. 拷贝 models 文件夹到你指定的目录,比如我剪切到 E:\ollama 下。

  2. 添加环境变量:

    • 右键"我的电脑",选择"属性"。

    • 按如下方式配置:

      plaintext 复制代码
      C:\Users\你的用户名\.ollama\models
  3. 重启Ollama客户端生效。

注意:修改完之后,需要重启Ollama客户端,右键图标,选择退出,重新运行Ollama。

验证是否生效:重新运行Ollama之后,重新打开命令行,输入命令 ollama list 查看。


五、其它方式:服务器部署

在企业中,想要私有化部署满血版DeepSeek-R1,即671B版本,需要有更好的硬件配置。

服务器可以是物理机,也可以是云服务器。

使用Ollama提供的经过量化压缩的671B模型的大小是404GB,建议内存+显存≥500 GB,举例几种性价比配置如下:

  • Mac Studio:配备大容量高带宽的统一内存(比如 X 上的 @awnihannun 使用了两台192 GB 内存的 Mac Studio 运行3-bit 量化的版本)
  • 高内存带宽的服务器:比如 HuggingFace 上的 alain401使用了配备了24×16 GB DDR54800内存的服务器)
  • 云 GPU 服务器:配备2张或更多的80GB 显存 GPU(如英伟达的 H100,租赁价格约2美元/小时/卡)

在这些硬件上的运行速度可达到10+ token /秒。

部署流程与个人电脑部署7B的流程没有太大区别,都是以下几个步骤:

  1. 根据服务器的操作系统,下载对应版本的Ollama客户端;
  2. 运行Ollama,执行 Ollama 命令运行671B版本模型;首次执行自动下载模型;
  3. 使用客户端工具/自己开发页面/代码调用,对接Ollama的R1模型;
相关推荐
阿里云大数据AI技术2 分钟前
PAI Physical AI Notebook详解8:Isaac Lab Arena 全身机器人机动+操控工作流
人工智能
高木木的博客16 分钟前
数字架构智能化测试平台(1)--总纲
人工智能·python·nginx·架构
wanghowie18 分钟前
11. AI 客服系统架构设计:不是调 API,而是系统工程
人工智能·系统架构
袋鼠云数栈UED团队24 分钟前
基于 OpenSpec 实现规范驱动开发
前端·人工智能
Raink老师26 分钟前
【AI面试临阵磨枪】什么是 Tokenization?子词分词(Subword)的优缺点?
人工智能·ai 面试
迷你可可小生43 分钟前
面经(三)
人工智能·rnn·lstm
云烟成雨TD1 小时前
Spring AI Alibaba 1.x 系列【28】Nacos Skill 管理中心功能说明
java·人工智能·spring
AI医影跨模态组学1 小时前
Cancer Letters(IF=10.1)中科院自动化研究所田捷等团队:整合纵向MRI与活检全切片图像用于乳腺癌新辅助治疗反应的早期预测及个体化管理
人工智能·深度学习·论文·医学·医学影像
oioihoii1 小时前
Graphify 简明指南
人工智能
数字供应链安全产品选型1 小时前
AI全生命周期安全:从开发到下线,悬镜安全灵境AIDR如何覆盖智能体每一个环节?
人工智能