序
新年本应该祝福满屏的朋友圈,忽然间被 Deepseek 刷屏,这款被《黑神话:悟空》的制作人冯骥的评述:"DeepSeek可能是国运级别的科技成果。至今已在160多个国家的应用商店屠榜。
DeepSeek的最新模型DeepSeek-V3和DeepSeek-R1确实属于MoE(混合专家)架构,并在开源世界产生了较大的影响力。特别是2025年1月开源的DeepSeek-R1,其模型性能可挑战OpenAI闭源的o1模型。
DeepSeek-V3和DeepSeek-R1的技术和架构分析
- DeepSeek-V3:该模型采用了MoE架构,拥有6710亿参数,训练成本仅为558万美元,推理成本1~2元/百万tokens。V3通过算法创新和工程优化大幅提升模型效率,从而降低成本,提高性价比。其重要架构改进包括多头潜在注意力(MLA)和DeepSeekMoe,这些创新使得V3在长上下文推理中表现出色。
- DeepSeek-R1:R1模型在V3的基础上进一步优化,采用了纯强化学习技术路线,能够在仅有极少标注数据的情况下,极大提升了模型推理能力。R1的训练成本为560万美元,但其推理能力与OpenAI o1相当,且在数学、代码、自然语言推理等任务上表现出色。
"国运级创新"的讨论
- 技术创新:DeepSeek的V3和R1模型确实在技术和架构上实现了多项创新,如MLA、DeepSeekMoe、多Token预测(MTP)等,这些创新显著提高了模型的效率和性能,降低了训练和推理成本。
- 误传与质疑:尽管DeepSeek的技术成就值得肯定,但也存在一些误传和质疑。例如,有外界人士认为DeepSeek可能在训练过程中使用了OpenAI的模型数据,尽管DeepSeek团队否认了这一点。此外,DeepSeek的高调宣传和"打破CUDA垄断"等说法也被一些媒体和专家视为过度炒作。
![](https://i-blog.csdnimg.cn/img_convert/202aa9feadade3a11116e6003a15a4d1.jpeg)
DeepSeek的V3和R1模型在技术和架构上的创新是显而易见的,这些创新不仅提高了模型的性能和效率,也对AI行业的未来发展产生了积极影响。然而,关于"国运级创新"的说法可能过于夸大,DeepSeek的成功更多地是技术创新和商业模式创新的结合,而非单一的技术突破。
腾讯云TI平台
腾讯云TI平台是基于腾讯AI能力与技术经验,为开发者和政企打造的全栈式开发服务平台。它贯通产业+AI落地全流程,包括数据获取到AI应用开发各环节,助用户创建部署AI应用、管理全周期解决方案,推动政企数字化转型和AI生态共建,其系列产品支持公有云、私有化和专属云部署。
![](https://i-blog.csdnimg.cn/img_convert/9d6066554d7fcb0961a70912bec102df.jpeg)
![](https://i-blog.csdnimg.cn/img_convert/160157a72b90c3706149c29183cab273.jpeg)
![](https://i-blog.csdnimg.cn/img_convert/aef72fa8c7cb9209e8deb70b0fcf95e7.jpeg)
DeepSeek 系列模型
DeepSeek系列模型是一组全新的大型语言模型,旨在提供高效、灵活且强大的自然语言处理能力。该系列模型通过创新的架构设计和优化算法,支持多种任务和应用场景,包括文本生成、对话系统、信息检索等。
![](https://i-blog.csdnimg.cn/img_convert/8a282a0ada0fe83a19f6e333242d7dc0.jpeg)
系列模型清单
![](https://i-blog.csdnimg.cn/img_convert/511ad8bc225d2e28a28a324b9a9738e4.png)
推理资源要求:DeepSeek-V3 与 DeepSeek-R1 需要多机分布式部署,2节点H20*8卡资源,其他蒸馏模型所需资源详见 大模型推理所需资源指南
**模型体验(**DeepSeek-R1)
![](https://i-blog.csdnimg.cn/img_convert/af71d313c5ef2662f59799d07ddb235a.png)
![](https://i-blog.csdnimg.cn/img_convert/ca22d1f82c97dc1872a5904db7099f00.gif)
新建在线服务
![](https://i-blog.csdnimg.cn/img_convert/d8575b7397d222972c0ddbc03a77c8e3.png)
创建在线的DeepSeek-R1服务
![](https://i-blog.csdnimg.cn/img_convert/17b183c3cb0242091a67a23511d848eb.png)
这里我们需要充值2个小时的费用,相当于上网吧的上网费,腾讯云好用不贵,很是优惠。
![](https://i-blog.csdnimg.cn/img_convert/b135b27c420133136fb0c6821167c729.png)
在上面的**算力规格
**中,要选择正确的配置信息。否则将会出现以下的错误提示。
![](https://i-blog.csdnimg.cn/img_convert/f30645cd65dc58efb5d3843c0a673796.png)
![](https://i-blog.csdnimg.cn/img_convert/5e17a5242903e2bb328d684bc54e7683.png)
R1每小时的费用仅需11.17元.
![](https://i-blog.csdnimg.cn/img_convert/f87f428bd3b4aaace75d897b03641e39.png)
创建中
![](https://i-blog.csdnimg.cn/img_convert/5d6f59f36226214d05120f2936a17671.png)
就绪中
![](https://i-blog.csdnimg.cn/img_convert/c0f3dfa9df823a4fb9eb4924ec2bf18b.png)
运行中,当我们看到这个状态的时候,说明我们已经可以使用自己的 Deepseek 了。
![](https://i-blog.csdnimg.cn/img_convert/7524dd811da3c13d8ec8cf3eb98294d9.png)
调用API
调用API(应用程序编程接口)是指在一个软件系统中,通过特定的协议和接口,向另一个软件系统请求服务或数据的过程。API是一组预定义的规则和工具,用于构建和交互软件应用程序,它定义了不同软件实体之间如何相互通信,使得开发者可以轻松地利用已有的功能和服务,从而提高开发效率
![](https://i-blog.csdnimg.cn/img_convert/9877f4a6d2c3d122c353861b2d16f3a8.png)
在线体验
![](https://i-blog.csdnimg.cn/img_convert/6d7aa6cdc0035603b3b3340a9bff6c0d.gif)
关闭服务
在使用DeepSeek的过程中,需要注意的是,该服务会根据实际使用情况产生相应的费用。因此,当您不再需要使用DeepSeek时,务必要记得及时停止相关服务。这一步骤非常重要,可以有效避免因疏忽而产生不必要的费用支出。通过合理管理服务的启停,您不仅能优化使用体验,还能更好地控制成本,确保资源的有效利用。
![](https://i-blog.csdnimg.cn/img_convert/917dbc75063654d6fcfb382e00ec90c7.png)
停止中
![](https://i-blog.csdnimg.cn/img_convert/3a9ce9793e2459ad6bdc529a830fb101.png)
已停止
![](https://i-blog.csdnimg.cn/img_convert/e9a3521556856af444217c13c6125cde.png)
最后,现在就开始 DeepSeek-R1 的 部署**,开启你的 AI 探索之旅吧,祝您问道成功~**