部署大模型不再难：DeepSeek + 腾讯云 HAI 实战教程

网罗开发 （小红书、快手、视频号同名）

大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者：《ESP32-C3 物联网工程开发实战》
图书作者：《SwiftUI 入门，进阶与实战》
超级个体：COC上海社区主理人
特约讲师：大学讲师，谷歌亚马逊分享嘉宾
科技博主：华为HDE/HDG

我的博客内容涵盖广泛，主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验 。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告，同时也会提供产品优缺点分析、横向对比，并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲：您的前沿技术领航员

👋 大家好，我是展菲！

📱 全网搜索"展菲"，即可纵览我在各大平台的知识足迹。

📣 公众号"Swift社区"，每周定时推送干货满满的技术长文，从新兴框架的剖析到运维实战的复盘，助您技术进阶之路畅通无阻。

💬 微信端添加好友"fzhanfei"，与我直接交流，不管是项目瓶颈的求助，还是行业趋势的探讨，随时畅所欲言。

📅 最新动态：2025 年 3 月 17 日

快来加入技术社区，一起挖掘技术的无限潜能，携手迈向数字化新征程！

文章目录

- 摘要
- 引言
- [HAI 是个什么东西？](#HAI 是个什么东西？)
- [如何在 HAI 平台部署 DeepSeek 模型](#如何在 HAI 平台部署 DeepSeek 模型)
- - [创建 HAI 服务](#创建 HAI 服务)
  - 编写模型推理服务代码
  - - app.py
    - requirements.txt
  - [部署并测试 API](#部署并测试 API)
- [实际场景应用：做个轻量 AI 助手 API](#实际场景应用：做个轻量 AI 助手 API)
- 代码运行示例
- [性能分析：成本 & 效率](#性能分析：成本 & 效率)
- - 时间复杂度
  - 空间复杂度
- [QA 环节](#QA 环节)
- 总结

摘要

如果你正准备在云上部署像 DeepSeek 这样的开源大模型，但又不想从零折腾容器、模型加速和 API 服务，腾讯云 HAI 平台就能帮你把这些流程一步步跑通。本文将带你体验用 HAI 平台快速部署 DeepSeek 模型，封装 API 并提供在线推理的完整流程，还附上了可运行的 Demo 和部署小技巧，帮助你避坑。

引言

部署大模型听起来高大上，其实最常见的痛点无非这几件事：

模型体积太大，推理服务卡顿
配环境、写 Dockerfile、跑服务太折腾
不会写 API 或者不会把模型服务部署在线上
想部署在云端，但不知道该选哪种云资源和平台

好消息是，腾讯云的 HAI 平台把这些细节都提前帮你想好了。不管你是想玩模型、做 demo，还是直接部署个产品 MVP，用 HAI 都很适合。

HAI 是个什么东西？

简单来说，HAI（High-performance AI Infra）平台是腾讯云为 AI 模型部署专门做的云平台。它的定位是「模型即服务」，你只需要准备模型代码，剩下的部署、环境配置、API 网关、负载均衡、资源调度......它都替你搞定了。

支持的能力包括：

一键部署 HuggingFace、ChatGLM、DeepSeek、InternLM 等开源模型
GPU 资源调度优化，按需使用
自动生成推理 API，可在线测试
支持模型微调、增量训练等高级玩法

如何在 HAI 平台部署 DeepSeek 模型

创建 HAI 服务

进入 HAI 控制台；
选择「新建服务」；
模型类型选择「自定义模型」；
镜像选择：可以选平台默认提供的 huggingface-pytorch 镜像；
挂载代码仓库或模型路径。

模型代码路径推荐结构如下：

txt 复制代码

project/
├── app.py
├── model/
│   └── deepseek_model.bin
├── requirements.txt
└── Dockerfile（可选）

编写模型推理服务代码

这是你核心需要写的部分。示例代码如下：

app.py

python 复制代码

from fastapi import FastAPI, Request
from pydantic import BaseModel
from transformers import AutoTokenizer, AutoModelForCausalLM

app = FastAPI()

# 初始化模型
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-llm-7b")
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-llm-7b").cuda()

class RequestBody(BaseModel):
    prompt: str

@app.post("/generate")
def generate_text(data: RequestBody):
    inputs = tokenizer(data.prompt, return_tensors="pt").to("cuda")
    output = model.generate(**inputs, max_length=100)
    response = tokenizer.decode(output[0], skip_special_tokens=True)
    return {"response": response}

requirements.txt

python 复制代码

transformers==4.36.2
torch==2.1.0
fastapi==0.95.0
uvicorn==0.23.2

部署并测试 API

打包上传代码或挂载仓库；
选择启动命令：uvicorn app:app --host 0.0.0.0 --port 8000
等待部署完成后，在控制台可以直接测试 /generate 接口

实际场景应用：做个轻量 AI 助手 API

如果你正在构建一个 AI 应用，比如：

智能问答服务
客服助手
自然语言分析工具

你只需要部署这个 API，再接入前端、小程序或者微信机器人，一个可用的 MVP 就有了。甚至可以部署多个模型服务，比如再加一个语音识别、OCR 模块，就能组成一整套模态处理系统。

代码运行示例

用 curl 测试接口示例如下：

bash 复制代码

curl -X POST https://你的部署地址/generate \
  -H "Content-Type: application/json" \
  -d '{"prompt": "给我写一段关于深度学习的介绍"}'

返回结果类似：

txt 复制代码

{
  "response": "深度学习是一种..."
}

性能分析：成本 & 效率

时间复杂度

推理时间主要取决于模型大小和生成长度；
DeepSeek-7B 在 A10 GPU 上单轮响应大约为 1~3 秒，适合中小规模应用。

空间复杂度

模型权重约 13GB，GPU 显存建议 ≥ 24GB；
部署过程中 HAI 平台自动分配资源，不需要手动干预。

QA 环节

Q1：我可以换模型吗？

当然可以。只需要替换代码中的模型地址，比如换成 "deepseek-ai/deepseek-coder-6.7b-base"，不需要其他额外配置。

Q2：怎么调高并发？

可以在控制台设置副本数，也可以开启负载均衡，HAI 会自动做并发处理。

Q3：我能接数据库、缓存服务吗？

可以接入腾讯云数据库（MySQL、Redis）等，只要在服务里加上相关 SDK 和连接配置即可。

总结

如果你想快速部署 DeepSeek 模型，尤其是在没有大规模算力和运维能力的情况下，腾讯云 HAI 平台是一条非常平滑的路径。它帮你挡掉了大部分的系统杂活，让你可以专注在模型逻辑和业务应用上。