云上玩转DeepSeek系列之六:DeepSeek云端加速版发布,具备超高推理性能

作为国内首个千亿级开源 MoE 模型,DeepSeek-R1 凭借其卓越的代码生成与复杂推理能力,已成为开发者构建智能应用的首选。然而,原始模型在产业落地中面临严峻挑战,部署 671B 满血版模型不仅硬件门槛要求很高,同时吞吐效率和响应延迟也受到了制约。

PAI 正式推出了优化版 DeepSeek-R1 模型 DeepSeek-R1-PAI-optimized,将大模型推理效率推向了 Next Level。核心亮点有:

  • 技术领先:基于自研的模型优化"黑科技",模型体积大幅减小的同时,评测表现依然良好
  • 单机部署:单机8卡GU120即可实现高性能部署,硬件成本直接减半
  • 性能跃升:相同时延约束下,吞吐能提升492%+;相同吞吐下, 首token时延直降86%+,token间时延直降69%+
  • 开箱即用: 只需进入PAI Model Gallery,搜索DeepSeek-R1-PAI-optimized,实现模型一键部署

性能跃升:极致吞吐与超低时延

DeepSeek-R1 优化版模型 DeepSeek-R1-PAI-optimized,相较原模型,在吞吐和延迟方面实现了双优,全面提升推理流程的效率。

实验配置:

优化版部署在单机 GU120,原模型部署在双机 GU120,推理引擎为 vLLM;

数据集为 longalpaca-12k,输入token长度限定为3K,输出 token 长度限定为1K。

实验结果:

  • DeepSeek-R1 优化版模型的极限总吞吐约达到3865tokens/s ,极限输出吞吐达到965tokens/s ,相比原模型有50%提升
  • 在相同的 SLO(TTFT <= 1000ms, TPOT <= 70ms)下,DeepSeek-R1 优化版模型的并发为60,输出吞吐能达到829tokens/s ;原模型的并发为10,输出吞吐能达到140tokens/s,优化版模型吞吐提升了492%
  • 在同等输出吞吐水平下(约500tokens/s),DeepSeek-R1优化版模型的TTFT为405ms ,原模型的TTFT为2928ms,降低了86% ;DeepSeek-R1优化版模型的TPOT为38ms ,原模型的TPOT为123ms,降低了69%。 ****

以下是在各类评测数据集的测试结果,对比 DeepSeek-R1 优化版的实测数据,和 DeepSeek-R1 原模型的实测数据,发现表现几近持平,证明了优化版模型的效果基本无损。


极简操作:三步开始高性能推理

  1. 进入 Model Gallery 页面(链接:pai.console.aliyun.com/#/quick-sta...
    • 登录 PAI 控制台。
    • 在顶部左上角根据实际情况选择地域。
    • 在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。
    • 在左侧导航栏选择快速开始 > Model Gallery。
  1. 部署优化版 DeepSeek-R1 模型

    • 在 Model Gallery 页面的模型列表中,搜索"DeepSeek-R1-PAI-optimized",找到并点击进入模型详情页面。
    • 单击右上角部署。选择部署方式和部署资源后,即可一键部署服务,生成一个 PAI-EAS 服务。
  1. 进行模型推理。

    • 部署成功后,在服务页面可以点击"查看调用信息"获取调用的 Endpoint 和 Token。
    • 点击模型介绍页,查看调用方式说明。

上阿里云PAI,使用更多DeepSeek衍生模型

除 DeepSeek-R1 满血版模型、 DeepSeek-R1 推理性能优化版模型外,PAI-Model Gallery 还提供以下衍生版本的模型,供不同需求场景下使用。

  • 大幅节省显存: DeepSeek-R1 量化版本 DeepSeek-R1-GGUF ,模型尺寸减少了 80% ,节省显存资源,性价比提升;
  • 小模型推理能力提升: DeepSeek-R1 蒸馏版本 PAI-DistilQwen2.5-7B-R1等,将 DeepSeek-R1的推理能力迁移到小模型中,实现原有小尺寸模型拥有推理能力;mp.weixin.qq.com/s/4xMt0fz1s...
  • 小模型推理速度提升: DeepSeek-V3 蒸馏版本 PAI-DistilQwen2.5-7B-DS3-0324 等,将 DeepSeekV3-0324 的快思考策略,迁移到小模型中,提升推理速度。mp.weixin.qq.com/s/QHI2-YBvX...
相关推荐
終不似少年遊*4 分钟前
【从基础到模型网络】深度学习-语义分割-基础
网络·人工智能·深度学习·语义分割·卷积·上采样
zeroporn29 分钟前
分别用 语言模型雏形N-Gram 和 文本表示BoW词袋 来实现文本情绪分类
人工智能·语言模型·分类·大模型·n-gram·词袋
云卓SKYDROID1 小时前
无人机减震模块运行与技术要点分析!
人工智能·无人机·科普·高科技·减震系统
山北雨夜漫步1 小时前
机器学习 Day18 Support Vector Machine ——最优美的机器学习算法
人工智能·算法·机器学习
正在走向自律1 小时前
从0到1吃透卷积神经网络(CNN):原理与实战全解析
人工智能·神经网络·cnn
拓端研究室TRL1 小时前
Python+AI提示词糖尿病预测融合模型:伯努利朴素贝叶斯、逻辑回归、决策树、随机森林、支持向量机SVM应用
人工智能·python·决策树·随机森林·逻辑回归
何双新1 小时前
第8讲、Multi-Head Attention 的核心机制与实现细节
人工智能·transformer
moongoblin1 小时前
协作赋能-1-制造业生产流程重构
大数据·人工智能·经验分享·制造
穿越光年1 小时前
MCP实战:在扣子空间用扣子工作流MCP,一句话生成儿童故事rap视频
人工智能·音视频
Johny_Zhao2 小时前
AI+自动化测试系统方案:网络设备与网络应用智能测试
linux·网络·人工智能·python·网络安全·docker·ai·信息安全·云计算·ansible·shell·cisco·huawei·系统运维·itsm·华三·deepseek