【DeepSeek】DeepSeek概述 | 本地部署deepseek

[1 -> 概述](#1 -> 概述)

[1.1 -> 技术特点](#1.1 -> 技术特点)

[1.2 -> 模型发布](#1.2 -> 模型发布)

[1.3 -> 应用领域](#1.3 -> 应用领域)

[1.4 -> 优势与影响](#1.4 -> 优势与影响)

[2 -> 本地部署](#2 -> 本地部署)

[2.1 -> 安装ollama](#2.1 -> 安装ollama)

[2.2 -> 部署deepseek-r1模型](#2.2 -> 部署deepseek-r1模型)

1 -> 概述

DeepSeek是由中国的深度求索公司开发的一系列人工智能模型，以其高效的性能和低成本的训练而受到关注。以下是其主要介绍：

混合专家架构(MoE)：DeepSeek-V3采用MoE架构，总参数达6710亿，但每个输入只激活370亿参数，通过动态冗余策略，在推理和训练过程中保持最佳的负载平衡，大大降低了计算成本，同时保持高性能。
多头潜在注意力(MLA)：引入多头潜在注意力机制，通过低秩联合压缩机制，将Key-Value矩阵压缩为低维潜在向量，显著减少内存占用。
无辅助损失负载均衡：采用无辅助损失负载均衡策略，最小化因鼓励负载均衡而导致的性能下降。
多Token预测(MTP)：采用多Token预测目标，证明其对模型性能有益，并可用于推理加速。
FP8混合精度训练：设计了FP8混合精度训练框架，首次验证了在极大规模模型上进行FP8训练的可行性和有效性。
知识蒸馏：DeepSeek-R1通过知识蒸馏，将长链推理(CoT)模型的推理能力蒸馏到标准LLM中，显著提升了推理性能。

DeepSeek-V3：2024年12月发布，总参数达6710亿，采用创新的MoE架构和FP8混合精度训练，训练成本仅为557.6万美元，在聊天机器人竞技场(Chatbot Arena)上排名第七，在开源模型中排名第一，是全球前十中性价比最高的模型。
DeepSeek-R1：2025年1月发布，性能与OpenAI的o1正式版持平，并开源，在Chatbot Arena综合榜单上排名第三，与OpenAI的o1并列，在高难度任务上表现出色。
Janus-Pro：2025年1月28日发布，分为7B(70亿)和1.5B(15亿)两个参数量版本，且均为开源，在多模态理解和文本到图像的指令跟踪功能方面取得重大进步，同时增强了文本到图像生成的稳定性，在多项基准测试中表现出色，甚至强于OpenAI旗下的DALL-E 3，以及Stable Diffusion。