使用Ollama本地部署DeepSeek大模型指南

🚀 使用Ollama部署DeepSeek大模型指南

下面是一篇面向中国国内实操的博客,系统地介绍 DeepSeek 大模型部署 ,涵盖硬件规划、部署方式(vLLM、Ollama),重点介绍Ollama以及如何对外提供 Server API 服务


一、硬件资源规划

不同规模的 DeepSeek-R1 模型对算力要求差异巨大,需根据目标性能与成本做选型:

模型版本 参数量 推荐显存 推荐 GPU 型号 CPU 内存
R1‑Distill 1.5B ~1.5B ≥6 GB A10 / 3060 ≥16 GB
R1‑Distill 7B ~7B ≥24 GB A10 / A100 ≥32 GB
R1‑Distill 14B/32B 14--32B ≥48 GB / 2×48GB 2×A100/GU120 ≥64 GB
R1 满血 671B 671B 8×96 GB GPU 8卡 GU120 ≥256 GB + NVMe RAID
  • CPU 版本:可使用 8 核以上 + 16GB RAM 实现轻量化推理,但速度较慢 。
  • 多机 vLLM 集群:可水平扩展,适合大规模服务场景 。

二、部署方式对比

以下是关于大模型部署方式的对比总结,适用于国内实际使用场景,尤其在部署 DeepSeek、Qwen 等模型时具有参考价值:


🧾 二、部署方式对比

部署方式 优势特点 适用场景 部署示例 / 说明
vLLM(推荐生产部署) ✅ 高性能✅ 支持并发推理✅ 自动量化✅ 可水平扩展 企业级应用、高并发场景 - 推荐 GPU 驱动版本 ≥ 550- 镜像地址:registry.cn-hangzhou.aliyuncs.com/eci_open/vllm-openai:v0.7.2- 启动命令:vllm serve /model-path --tensor-parallel-size 1 --max-model-len 8192- 可配合阿里云 ECI 进行弹性部署
Ollama(轻量快速启动) ✅ 支持 GGUF 量化模型✅ 安装简便✅ 自带 REST API 本地测试、单机部署、低延迟调用需求 - 支持 Qwen、DeepSeek-Coder、LLaMA3 等模型- 启动命令:ollama run deepseek-coder:6.7b- 监听端口:11434,直接对接 Web/Node.js 调用 API
Transformers Pipeline(开发集成使用) ✅ HuggingFace 生态✅ API 简洁✅ 适合本地调试 微服务嵌入、开发测试、Fine-tune 场景 - 示例代码:from transformers import pipeline``pipe = pipeline("text-generation", model="deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B")- 可配合 accelerate 实现多卡推理
国内可实操落地路径
  1. ECS+GPU 实例部署:推荐 A100、A10、GU30,搭配 32GB+ 内存;
  2. ECI 弹性容器部署:利用镜像+模型缓存实现分钟级上线;
  3. Ollama 本地部署:单卡开发速度快,适合 PoC;
  4. vLLM 多机集群:满足高并发、高吞吐量场景的工业化需求。

推荐部署组合场景
  • 小团队开发 & PoC:本地或轻量 ECI 上 Ollama 7B 模型即可;
  • 中小企业应用:ECS+A10部署 7B / 14B 模型,用 vLLM 提供 API;
  • 大模型推理服务:8×GU120 671B 满血部署,搭建 vLLM 多节点评测及 Auto-scaling。

Ollama

下面是一个实战指南 ,教你如何在国内服务器上使用 Ollama 快速部署大模型(如 DeepSeek、LLaMA3、Qwen 等),并提供 API 服务。支持 Mac、Linux,也可在 Docker 中部署,适合开发者和团队自部署推理服务。

🎯 Ollama 简介

Ollama 是一个轻量级大模型推理框架,主打"本地部署 + 一键运行",默认支持 GGUF 格式模型,能以极低配置快速部署大语言模型,并通过 API 提供推理服务。


🧱 1. 系统环境准备

✅ 软硬件要求
配置项 推荐配置
操作系统 Ubuntu 20.04+ / MacOS / WSL
内存 RAM 至少 16GB(Q4可用低于8G)
显卡 GPU 支持 CUDA (NVIDIA 11+),显存8G+
CPU-only 也支持(速度会慢)
✅ 国内环境准备建议
  • 国内网络建议配置代理或使用阿里源进行 Docker 加速
  • 安装模型前建议配置清华 TUNA 镜像或使用 Ollama CN 镜像站

🛠️ 2. 安装 Ollama

macOS Download

Windows Download

Linux

bash 复制代码
curl -fsSL https://ollama.com/install.sh | sh

运行后,ollama serve 启动服务。

bash 复制代码
ollama serve 

你可以通过 http://localhost:11434 访问 Ollama 的 REST API 服务。

arduino 复制代码
//网页显示
Ollama is running

📥 3. 下载并运行 DeepSeek 模型

支持的 DeepSeek 模型名称示例
arduino 复制代码
ollama pull ollama run deepseek-r1:1.5b

还可以使用:

arduino 复制代码
ollama run ollama run deepseek-r1:1.5b

如果是首次运行,它会自动从官方源下载对应模型(需科学上网或提前下载 gguf 文件)。

也可以在ollama.com/library 中选择自己想要的模型

🎬 4.体验本地部署的DeepSeek

bash 复制代码
 ~ % ollama run deepseek-r1:1.5b
>>> Send a message (/? for help)
>>> 你是谁
您好!我是由中国的深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1。如您有任何任何问题,我会尽我所能为您提供帮助。

🌐 5. 启用 API 服务(Server 模式)

启动模型并监听 API
复制代码
ollama serve

此时,接口默认监听在 http://localhost:11434,可以使用如下接口进行推理:

🎯 REST API 调用示例(curl)
bash 复制代码
curl http://localhost:11434/api/chat -d '{
  "model": "deepseek-r1:1.5b",
  "messages": [
    {
      "role": "user",
      "content": "如何夸赞别人"
    }
  ],
  "stream":false
}'
swift 复制代码
部分输出:
{
  "model": "deepseek-r1:1.5b",
  "created_at": "2025-07-21T09:49:02.454282Z",
  "message": {
    "role": "assistant",
    "content": "<think>\n嗯,用户问"如何夸赞别人",看起来他们可能经常需要在社交媒体上交流或者在面试中表达感谢。我得想一下,怎么最好地表现出对别人的尊重和感谢呢。\n\n首先,肯定是对的,但不能只停留在简单的肯定。比如,可以说"你是个很聪明的人"这样的句子是没错的,但是还不够全面。应该把其他方面也考虑到进去,这样显得更真诚和全面。\n\n接下来,表达感谢也是很重要的。用户可能会因为别人的表现而感到感激,所以提到感谢他们的努力或者成果,会让对方觉得被重视,感觉更有面子。\n\n然后,表达期待也是一种好习惯,比如"我会继续关注你",这样不仅表达了对他的信任,还给了机会互相交流,显得更友好。\n\n另外,真诚的态度也很关键。不要过于夸张,但也不能太过随意。要找一个平衡点,既能表现出尊重,又能体现出对对方的重视和关心。\n\n可能用户还想知道更多具体的表达方式,比如具体的词汇或者结构,这样他们可以更加灵活地使用这些句子。比如,开头可以用"非常感谢"、"真有你的天赋",然后提到具体的内容,最后再说一句期待回复。"
  },
  "done_reason": "stop",
  "done": true,
  "total_duration": 9850943167,
  "load_duration": 57946833,
  "prompt_eval_count": 7,
  "prompt_eval_duration": 183356000,
  "eval_count": 674,
  "eval_duration": 9608311959
}

也可以使用 Node.js、Python、Postman 等发起请求。


📁 5. 模型预下载(建议)

由于国内网络限制,建议提前下载 GGUF 文件放置到 ~/.ollama 文件夹中(或使用 Ollama 中文镜像):

参考模型文件(可手动下载):


✅ 常见问题解决

问题 解决方式
模型下载失败 使用代理或手动下载模型并复制到 Ollama 数据目录
显存不足 使用量化模型,如 q4_0 版本
无法访问 API 确保 11434 端口未被防火墙阻断,使用 curl 本地测试
提示 unsupported platform 替换为 Docker 部署,平台兼容性更强

🚀 总结

Ollama 是目前最适合国内自部署大模型服务的工具之一,配合 DeepSeek、Qwen、LLaMA3 等 GGUF 模型,可以非常高效地部署离线大模型 API 服务。后续可以通过 Nginx 反向代理、Auth 接入认证系统,实现生产级别的 AI 服务接口。

相关推荐
倔强青铜三1 小时前
苦练Python第27天:嵌套数据结构
人工智能·python·面试
倔强青铜三1 小时前
苦练Python第26天:精通字典8大必杀技
人工智能·python·面试
martian6652 小时前
深入详解随机森林在眼科影像分析中的应用及实现细节
人工智能·算法·随机森林·机器学习·医学影像
望百川归海2 小时前
基于自定义数据集微调SigLIP2-分类任务
人工智能·分类·数据挖掘
Java与Android技术栈3 小时前
OpenCV 图像调色优化实录:从 forEach 到并行 + LUT 提速之路
人工智能·opencv·计算机视觉
ghie90904 小时前
相位中心偏置天线的SAR动目标检测
人工智能·目标检测·目标跟踪
annaPresident4 小时前
【1】计算机视觉方法(更新)
人工智能·计算机视觉
步步咏凉天4 小时前
“显著性”(Saliency)是计算机视觉中的一个重要概念,主要指的是图像或视频中最吸引人注意力的区域或对象
人工智能·计算机视觉
飞哥数智坊4 小时前
AI编程实战:Cursor突然收费封禁?用Trae开发一个写作助手(前端篇)
人工智能·trae
淦暴尼4 小时前
通俗易懂神经网络:从基础到实现
人工智能·深度学习·神经网络