🚀 使用Ollama部署DeepSeek大模型指南
下面是一篇面向中国国内实操的博客,系统地介绍 DeepSeek 大模型部署 ,涵盖硬件规划、部署方式(vLLM、Ollama),重点介绍Ollama以及如何对外提供 Server API 服务
一、硬件资源规划
不同规模的 DeepSeek-R1 模型对算力要求差异巨大,需根据目标性能与成本做选型:
模型版本 | 参数量 | 推荐显存 | 推荐 GPU 型号 | CPU 内存 |
---|---|---|---|---|
R1‑Distill 1.5B | ~1.5B | ≥6 GB | A10 / 3060 | ≥16 GB |
R1‑Distill 7B | ~7B | ≥24 GB | A10 / A100 | ≥32 GB |
R1‑Distill 14B/32B | 14--32B | ≥48 GB / 2×48GB | 2×A100/GU120 | ≥64 GB |
R1 满血 671B | 671B | 8×96 GB | GPU 8卡 GU120 | ≥256 GB + NVMe RAID |
- CPU 版本:可使用 8 核以上 + 16GB RAM 实现轻量化推理,但速度较慢 。
- 多机 vLLM 集群:可水平扩展,适合大规模服务场景 。
二、部署方式对比
以下是关于大模型部署方式的对比总结,适用于国内实际使用场景,尤其在部署 DeepSeek、Qwen 等模型时具有参考价值:
🧾 二、部署方式对比
部署方式 | 优势特点 | 适用场景 | 部署示例 / 说明 |
---|---|---|---|
vLLM(推荐生产部署) | ✅ 高性能✅ 支持并发推理✅ 自动量化✅ 可水平扩展 | 企业级应用、高并发场景 | - 推荐 GPU 驱动版本 ≥ 550- 镜像地址:registry.cn-hangzhou.aliyuncs.com/eci_open/vllm-openai:v0.7.2 - 启动命令:vllm serve /model-path --tensor-parallel-size 1 --max-model-len 8192 - 可配合阿里云 ECI 进行弹性部署 |
Ollama(轻量快速启动) | ✅ 支持 GGUF 量化模型✅ 安装简便✅ 自带 REST API | 本地测试、单机部署、低延迟调用需求 | - 支持 Qwen、DeepSeek-Coder、LLaMA3 等模型- 启动命令:ollama run deepseek-coder:6.7b - 监听端口:11434,直接对接 Web/Node.js 调用 API |
Transformers Pipeline(开发集成使用) | ✅ HuggingFace 生态✅ API 简洁✅ 适合本地调试 | 微服务嵌入、开发测试、Fine-tune 场景 | - 示例代码:from transformers import pipeline``pipe = pipeline("text-generation", model="deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B") - 可配合 accelerate 实现多卡推理 |
国内可实操落地路径
- ECS+GPU 实例部署:推荐 A100、A10、GU30,搭配 32GB+ 内存;
- ECI 弹性容器部署:利用镜像+模型缓存实现分钟级上线;
- Ollama 本地部署:单卡开发速度快,适合 PoC;
- vLLM 多机集群:满足高并发、高吞吐量场景的工业化需求。
推荐部署组合场景
- 小团队开发 & PoC:本地或轻量 ECI 上 Ollama 7B 模型即可;
- 中小企业应用:ECS+A10部署 7B / 14B 模型,用 vLLM 提供 API;
- 大模型推理服务:8×GU120 671B 满血部署,搭建 vLLM 多节点评测及 Auto-scaling。
Ollama
下面是一个实战指南 ,教你如何在国内服务器上使用 Ollama 快速部署大模型(如 DeepSeek、LLaMA3、Qwen 等),并提供 API 服务。支持 Mac、Linux,也可在 Docker 中部署,适合开发者和团队自部署推理服务。
🎯 Ollama 简介
Ollama 是一个轻量级大模型推理框架,主打"本地部署 + 一键运行",默认支持 GGUF 格式模型,能以极低配置快速部署大语言模型,并通过 API 提供推理服务。
🧱 1. 系统环境准备
✅ 软硬件要求
配置项 | 推荐配置 |
---|---|
操作系统 | Ubuntu 20.04+ / MacOS / WSL |
内存 RAM | 至少 16GB(Q4可用低于8G) |
显卡 GPU | 支持 CUDA (NVIDIA 11+),显存8G+ |
CPU-only | 也支持(速度会慢) |
✅ 国内环境准备建议
- 国内网络建议配置代理或使用阿里源进行 Docker 加速
- 安装模型前建议配置清华 TUNA 镜像或使用 Ollama CN 镜像站
🛠️ 2. 安装 Ollama
macOS Download
Windows Download
Linux
bash
curl -fsSL https://ollama.com/install.sh | sh
运行后,ollama serve 启动服务。
bash
ollama serve
你可以通过 http://localhost:11434
访问 Ollama 的 REST API 服务。
arduino
//网页显示
Ollama is running
📥 3. 下载并运行 DeepSeek 模型
支持的 DeepSeek 模型名称示例
arduino
ollama pull ollama run deepseek-r1:1.5b
还可以使用:
arduino
ollama run ollama run deepseek-r1:1.5b
如果是首次运行,它会自动从官方源下载对应模型(需科学上网或提前下载 gguf 文件)。
也可以在ollama.com/library 中选择自己想要的模型
🎬 4.体验本地部署的DeepSeek
bash
~ % ollama run deepseek-r1:1.5b
>>> Send a message (/? for help)
>>> 你是谁
您好!我是由中国的深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1。如您有任何任何问题,我会尽我所能为您提供帮助。
🌐 5. 启用 API 服务(Server 模式)
启动模型并监听 API
ollama serve
此时,接口默认监听在 http://localhost:11434
,可以使用如下接口进行推理:
🎯 REST API 调用示例(curl)
bash
curl http://localhost:11434/api/chat -d '{
"model": "deepseek-r1:1.5b",
"messages": [
{
"role": "user",
"content": "如何夸赞别人"
}
],
"stream":false
}'
swift
部分输出:
{
"model": "deepseek-r1:1.5b",
"created_at": "2025-07-21T09:49:02.454282Z",
"message": {
"role": "assistant",
"content": "<think>\n嗯,用户问"如何夸赞别人",看起来他们可能经常需要在社交媒体上交流或者在面试中表达感谢。我得想一下,怎么最好地表现出对别人的尊重和感谢呢。\n\n首先,肯定是对的,但不能只停留在简单的肯定。比如,可以说"你是个很聪明的人"这样的句子是没错的,但是还不够全面。应该把其他方面也考虑到进去,这样显得更真诚和全面。\n\n接下来,表达感谢也是很重要的。用户可能会因为别人的表现而感到感激,所以提到感谢他们的努力或者成果,会让对方觉得被重视,感觉更有面子。\n\n然后,表达期待也是一种好习惯,比如"我会继续关注你",这样不仅表达了对他的信任,还给了机会互相交流,显得更友好。\n\n另外,真诚的态度也很关键。不要过于夸张,但也不能太过随意。要找一个平衡点,既能表现出尊重,又能体现出对对方的重视和关心。\n\n可能用户还想知道更多具体的表达方式,比如具体的词汇或者结构,这样他们可以更加灵活地使用这些句子。比如,开头可以用"非常感谢"、"真有你的天赋",然后提到具体的内容,最后再说一句期待回复。"
},
"done_reason": "stop",
"done": true,
"total_duration": 9850943167,
"load_duration": 57946833,
"prompt_eval_count": 7,
"prompt_eval_duration": 183356000,
"eval_count": 674,
"eval_duration": 9608311959
}
也可以使用 Node.js、Python、Postman 等发起请求。
📁 5. 模型预下载(建议)
由于国内网络限制,建议提前下载 GGUF 文件放置到 ~/.ollama
文件夹中(或使用 Ollama 中文镜像):
参考模型文件(可手动下载):
✅ 常见问题解决
问题 | 解决方式 |
---|---|
模型下载失败 | 使用代理或手动下载模型并复制到 Ollama 数据目录 |
显存不足 | 使用量化模型,如 q4_0 版本 |
无法访问 API | 确保 11434 端口未被防火墙阻断,使用 curl 本地测试 |
提示 unsupported platform | 替换为 Docker 部署,平台兼容性更强 |
🚀 总结
Ollama 是目前最适合国内自部署大模型服务的工具之一,配合 DeepSeek、Qwen、LLaMA3 等 GGUF 模型,可以非常高效地部署离线大模型 API 服务。后续可以通过 Nginx 反向代理、Auth 接入认证系统,实现生产级别的 AI 服务接口。