【AI】增长迅猛的DeepSeek

giszz2025-02-12 10:45

DeepSeek-V3、R1 两款模型的推出，犹如在 AI 行业投入了两颗重磅炸弹，DeepSeek 迅速成为

科技产业最耀眼的明星企业，并引发了巨大的讨论与关注。相较于各科技巨头不断构建更大规模

算力集群来训练更强大的模型，DeepSeek 向大家展示了通过精巧的算法优化，可以在低一个数

量级算力消耗的情况下生产出顶尖性能的模型。

DeepSeek 已经成为众多科技领域领袖重点关注的对象：微软 CEO 纳德拉在财报电话会议上称

DeepSeek"有一些真的创新"，并透露 R1 模型已经可以通过微软的 AI 平台获取；Meta CEO 扎

克伯格表示 Meta 将 DeepSeek 视为竞争对手并正在学习；ASML CEO 则在接受采访时表示

DeepSeek 这样的低成本模型将带来更多而非更少的 AI 芯片需求；Anthropic 创始人认为 V3 是真

正的创新所在；人工智能专家吴恩达也发文认为中美 AI 差距正在迅速缩小。OpenAI CEO 山姆奥

特曼更是在发布 o3-mini 后罕见地承认"在开源上 OpenAI 站在了历史的错误一方"。

在超高的热度下，DeepSeek 成为了全球增速最快的 AI 应用，仅上线 18 天日活就达到了 1500

万，而 ChatGPT 过 1500 万花了 244 天，增速是 ChatGPT 的 13 倍；1 月 26 日同时登顶苹果

App Store 和谷歌 Play Store 全球下载榜首，目前仍然在 100 多个多家/地区维持领先。

从上图可以看到，自从推理模型R1版本推出，下载量出现了快速的增长势头。

在大陆运行ChatGPT，有不少限制，虽然研究的很多，但不能很方便的注册，甚至由于它的出现，带动了很多VPN的爆赚。当然，这是做得说不得的事情。

目前VPN的价格，确实出现了水涨船高的现象，很多小的也受到了打击，或者无法付款的情况出现。

据披露，DeepSeek-V3 为自研 MoE 模型，总参数 671B 参数，而每项任务仅激活 37B，在 14.8T

token 上进行了预训练。DeepSeek-V3 实现了多项工程技术上的创新，包括通过 FP8 精度训练、

DualPipe双向流水线等技术降低训练成本，通过优化MoE负载均衡、多头潜在注意力机制（MLA）

来降低推理成本，并通过多 Token 预测（MTP）以及模型蒸馏来进一步提升模型性能，最终取得

了令人惊艳的效果。