使用Ollama本地部署DeepSeek大模型指南

🚀 使用Ollama部署DeepSeek大模型指南

下面是一篇面向中国国内实操的博客，系统地介绍 DeepSeek 大模型部署 ，涵盖硬件规划、部署方式（vLLM、Ollama），重点介绍Ollama以及如何对外提供 Server API 服务

一、硬件资源规划

不同规模的 DeepSeek-R1 模型对算力要求差异巨大，需根据目标性能与成本做选型：

模型版本	参数量	推荐显存	推荐 GPU 型号	CPU 内存
R1‑Distill 1.5B	~1.5B	≥6 GB	A10 / 3060	≥16 GB
R1‑Distill 7B	~7B	≥24 GB	A10 / A100	≥32 GB
R1‑Distill 14B/32B	14--32B	≥48 GB / 2×48GB	2×A100/GU120	≥64 GB
R1 满血 671B	671B	8×96 GB	GPU 8卡 GU120	≥256 GB + NVMe RAID

CPU 版本：可使用 8 核以上 + 16GB RAM 实现轻量化推理，但速度较慢。
多机 vLLM 集群：可水平扩展，适合大规模服务场景。

二、部署方式对比

以下是关于大模型部署方式的对比总结，适用于国内实际使用场景，尤其在部署 DeepSeek、Qwen 等模型时具有参考价值：

🧾 二、部署方式对比

部署方式	优势特点	适用场景	部署示例 / 说明
vLLM（推荐生产部署）	✅ 高性能✅ 支持并发推理✅ 自动量化✅ 可水平扩展	企业级应用、高并发场景	- 推荐 GPU 驱动版本 ≥ 550- 镜像地址：`registry.cn-hangzhou.aliyuncs.com/eci_open/vllm-openai:v0.7.2`- 启动命令：`vllm serve /model-path --tensor-parallel-size 1 --max-model-len 8192`- 可配合阿里云 ECI 进行弹性部署
Ollama（轻量快速启动）	✅ 支持 GGUF 量化模型✅ 安装简便✅ 自带 REST API	本地测试、单机部署、低延迟调用需求	- 支持 Qwen、DeepSeek-Coder、LLaMA3 等模型- 启动命令：`ollama run deepseek-coder:6.7b`- 监听端口：11434，直接对接 Web/Node.js 调用 API
Transformers Pipeline（开发集成使用）	✅ HuggingFace 生态✅ API 简洁✅ 适合本地调试	微服务嵌入、开发测试、Fine-tune 场景	- 示例代码：from transformers import pipeline``pipe = pipeline("text-generation", model="deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B")- 可配合 accelerate 实现多卡推理

国内可实操落地路径

ECS+GPU 实例部署：推荐 A100、A10、GU30，搭配 32GB+ 内存；
ECI 弹性容器部署：利用镜像+模型缓存实现分钟级上线；
Ollama 本地部署：单卡开发速度快，适合 PoC；
vLLM 多机集群：满足高并发、高吞吐量场景的工业化需求。

Ollama

下面是一个实战指南 ，教你如何在国内服务器上使用 Ollama 快速部署大模型（如 DeepSeek、LLaMA3、Qwen 等），并提供 API 服务。支持 Mac、Linux，也可在 Docker 中部署，适合开发者和团队自部署推理服务。

🎯 Ollama 简介

Ollama 是一个轻量级大模型推理框架，主打"本地部署 + 一键运行"，默认支持 GGUF 格式模型，能以极低配置快速部署大语言模型，并通过 API 提供推理服务。

🧱 1. 系统环境准备

✅ 软硬件要求

配置项	推荐配置
操作系统	Ubuntu 20.04+ / MacOS / WSL
内存 RAM	至少 16GB（Q4可用低于8G）
显卡 GPU	支持 CUDA (NVIDIA 11+)，显存8G+
CPU-only	也支持（速度会慢）

✅ 国内环境准备建议

国内网络建议配置代理或使用阿里源进行 Docker 加速
安装模型前建议配置清华 TUNA 镜像或使用 Ollama CN 镜像站

🛠️ 2. 安装 Ollama

macOS Download

Windows Download

Linux

bash 复制代码

curl -fsSL https://ollama.com/install.sh | sh

运行后，ollama serve 启动服务。

bash 复制代码

ollama serve

你可以通过 http://localhost:11434 访问 Ollama 的 REST API 服务。

arduino 复制代码

//网页显示
Ollama is running

📥 3. 下载并运行 DeepSeek 模型

支持的 DeepSeek 模型名称示例

arduino 复制代码

ollama pull ollama run deepseek-r1:1.5b

还可以使用：

arduino 复制代码

ollama run ollama run deepseek-r1:1.5b

如果是首次运行，它会自动从官方源下载对应模型（需科学上网或提前下载 gguf 文件）。

也可以在ollama.com/library 中选择自己想要的模型

🎬 4.体验本地部署的DeepSeek

bash 复制代码

 ~ % ollama run deepseek-r1:1.5b
>>> Send a message (/? for help)
>>> 你是谁
您好！我是由中国的深度求索（DeepSeek）公司开发的智能助手DeepSeek-R1。如您有任何任何问题，我会尽我所能为您提供帮助。

🌐 5. 启用 API 服务（Server 模式）

启动模型并监听 API

复制代码

ollama serve

此时，接口默认监听在 http://localhost:11434，可以使用如下接口进行推理：

🎯 REST API 调用示例（curl）

bash 复制代码

curl http://localhost:11434/api/chat -d '{
  "model": "deepseek-r1:1.5b",
  "messages": [
    {
      "role": "user",
      "content": "如何夸赞别人"
    }
  ],
  "stream":false
}'

swift 复制代码

部分输出：
{
  "model": "deepseek-r1:1.5b",
  "created_at": "2025-07-21T09:49:02.454282Z",
  "message": {
    "role": "assistant",
    "content": "<think>\n嗯，用户问"如何夸赞别人"，看起来他们可能经常需要在社交媒体上交流或者在面试中表达感谢。我得想一下，怎么最好地表现出对别人的尊重和感谢呢。\n\n首先，肯定是对的，但不能只停留在简单的肯定。比如，可以说"你是个很聪明的人"这样的句子是没错的，但是还不够全面。应该把其他方面也考虑到进去，这样显得更真诚和全面。\n\n接下来，表达感谢也是很重要的。用户可能会因为别人的表现而感到感激，所以提到感谢他们的努力或者成果，会让对方觉得被重视，感觉更有面子。\n\n然后，表达期待也是一种好习惯，比如"我会继续关注你"，这样不仅表达了对他的信任，还给了机会互相交流，显得更友好。\n\n另外，真诚的态度也很关键。不要过于夸张，但也不能太过随意。要找一个平衡点，既能表现出尊重，又能体现出对对方的重视和关心。\n\n可能用户还想知道更多具体的表达方式，比如具体的词汇或者结构，这样他们可以更加灵活地使用这些句子。比如，开头可以用"非常感谢"、"真有你的天赋"，然后提到具体的内容，最后再说一句期待回复。"
  },
  "done_reason": "stop",
  "done": true,
  "total_duration": 9850943167,
  "load_duration": 57946833,
  "prompt_eval_count": 7,
  "prompt_eval_duration": 183356000,
  "eval_count": 674,
  "eval_duration": 9608311959
}

也可以使用 Node.js、Python、Postman 等发起请求。

📁 5. 模型预下载（建议）

由于国内网络限制，建议提前下载 GGUF 文件放置到 ~/.ollama 文件夹中（或使用 Ollama 中文镜像）：

参考模型文件（可手动下载）：

✅ 常见问题解决

问题	解决方式
模型下载失败	使用代理或手动下载模型并复制到 Ollama 数据目录
显存不足	使用量化模型，如 `q4_0` 版本
无法访问 API	确保 11434 端口未被防火墙阻断，使用 `curl` 本地测试
提示 unsupported platform	替换为 Docker 部署，平台兼容性更强

🚀 总结

Ollama 是目前最适合国内自部署大模型服务的工具之一，配合 DeepSeek、Qwen、LLaMA3 等 GGUF 模型，可以非常高效地部署离线大模型 API 服务。后续可以通过 Nginx 反向代理、Auth 接入认证系统，实现生产级别的 AI 服务接口。

使用Ollama本地部署DeepSeek大模型指南

🚀 使用Ollama部署DeepSeek大模型指南

一、硬件资源规划

二、部署方式对比

🧾 二、部署方式对比

国内可实操落地路径

推荐部署组合场景

Ollama

🎯 Ollama 简介

🧱 1. 系统环境准备

✅ 软硬件要求

✅ 国内环境准备建议

🛠️ 2. 安装 Ollama

📥 3. 下载并运行 DeepSeek 模型

支持的 DeepSeek 模型名称示例

🎬 4.体验本地部署的DeepSeek

🌐 5. 启用 API 服务（Server 模式）

启动模型并监听 API

🎯 REST API 调用示例（curl）

📁 5. 模型预下载（建议）

✅ 常见问题解决

🚀 总结