【杂谈】-DeepSeek如何以560万美元突破成本障碍

DeepSeek如何以560万美元突破成本障碍

文章目录

DeepSeek如何以560万美元突破成本障碍

传统的人工智能观点认为，构建大型语言模型 (LLM)需要大量资金------通常需要数十亿美元的投资。但中国人工智能初创公司DeepSeek的最新成果打破了这一模式：仅用 560 万美元就开发出了一个世界级的人工智能模型。

DeepSeek 的V3 模型可以与谷歌 Gemini和OpenAI 的最新产品等行业巨头一较高下，同时仅使用典型计算资源的一小部分。这一成就引起了许多行业领袖的关注，尤其引人注目的是，尽管面临美国出口限制，无法获得最新的Nvidia 芯片，该公司仍取得了这一成就。

1、高效人工智能的经济学

这些数字说明了效率的惊人。虽然大多数先进的人工智能模型需要16,000到100,000个 GPU 进行训练，但DeepSeek仅用2,048个GPU运行了57天。该模型的训练在Nvidia H800芯片上消耗了278万个 GPU 小时------对于 6710 亿个参数的模型来说，这个数字非常适中。

从这个角度来看，Meta 需要大约 3080 万个GPU 小时（大约是计算能力的 11 倍）来训练其Llama 3 模型，而该模型的参数实际上更少，只有 4050 亿个。DeepSeek 的方法类似于在约束条件下进行优化的大师班。借助 H800 GPU（Nvidia 专为中国市场设计的、功能有限的 AI 芯片），该公司将潜在的限制转化为创新。他们没有使用现成的解决方案进行处理器通信，而是开发了可最大限度提高效率的定制解决方案。

尽管竞争对手仍然认为需要进行大规模投资，但 DeepSeek 已证明，独创性和高效的资源利用可以使竞争更加公平。

图片来源：https://artificialanalysis.ai/models/deepseek-v3

2、实现不可能的工程

DeepSeek 的成就在于其创新的技术方法，表明有时最有影响力的突破来自于在约束条件下工作，而不是投入无限的资源来解决问题。

这项创新的核心是一种称为"无辅助损失负载平衡（auxiliary-loss-free load balancing）"的策略。可以将其想象成协调一个大规模并行处理系统，传统上，您需要复杂的规则和惩罚才能使一切顺利运行。DeepSeek 颠覆了这种传统观念，开发了一种可以自然保持平衡的系统，而无需传统方法的开销。

该团队还率先采用了所谓的"多标记预测"（Multi-Token Prediction，MTP）技术，该技术通过同时预测多个标记，让模型提前思考。在实践中，这意味着这些预测在各个主题中的接受率高达 85-90%，处理速度比以前的方法快 1.8 倍。

技术架构本身就是效率的杰作。DeepSeek 的 V3 采用混合专家（mixture-of-experts，MoE）方法，总共有 6710 亿个参数，但巧妙之处在于它只为每个 token 激活 370 亿个参数。这种选择性激活意味着他们可以获得大规模模型的好处，同时保持实际效率。

他们选择 FP8 混合精度训练框架是又一次飞跃。他们没有接受传统的精度降低限制，而是开发了定制解决方案，在保持精度的同时显著降低了内存和计算要求。

3、人工智能生态系统的连锁反应

DeepSeek 的成就的影响远远超出了一个成功的模型。

对于欧洲的人工智能发展来说，这一突破意义非凡。许多先进的模型无法进入欧盟，因为像 Meta 和 OpenAI 这样的公司无法或不愿适应欧盟的《人工智能法案》。DeepSeek 的方法表明，构建尖端人工智能并不总是需要大规模的 GPU 集群------更重要的是高效利用可用资源。

这一发展也表明出口限制实际上可以推动创新。DeepSeek 对高端硬件的有限使用迫使他们以不同的方式思考，从而实现了在资源丰富的环境中可能永远不会出现的软件优化。这一原则可能会重塑我们在全球范围内处理人工智能开发的方式。

尽管行业巨头仍在投入数十亿美元，但 DeepSeek 已经为高效、经济的 AI 开发制定了蓝图。这可能会为之前因资源限制而无法竞争的小型公司和研究机构打开大门。

然而，这并不意味着大规模计算基础设施正在变得过时。业界正在将重点转向扩展推理时间------模型生成答案所需的时间。随着这一趋势的持续，大量计算资源仍将是必要的，随着时间的推移，这种需求可能会更加迫切。

但 DeepSeek 从根本上改变了这一话题。其长期影响显而易见：我们正在进入一个创新思维和高效资源利用比单纯的计算能力更重要的时代。对于人工智能社区来说，这意味着不仅要关注我们拥有什么资源，还要关注我们如何创造性和高效地利用这些资源。