DeepSeek 开源周：在 AGI 探索中不断挑战自己的极限

（下面文字主要由 Grok 3 协助生成）

背景与概述

DeepSeek 的开源周始于 2025 年 2 月 24 日，发布了一批生产测试过的 AI 基础设施工具。这些工具旨在支持高效的 AGI（通用人工智能）开发，并为社区提供可构建的基础设施，加速社区创新，推动 AI 技术的发展。也体现了其"无虚言，仅真诚代码"的开发理念。

根据 DeepSeek Open Infra Index，发布的存储库包括：

Day 1: FlashMLA - 高效 MLA 解码内核
Day 2: DeepEP - MoE 模型训练和推理的通信库
Day 3: DeepGEMM - FP8 GEMM 库
Day 4: DualPipe、EPLB、profile-data - 训练优化工具
Day 5: 3FS 和 smallpond - 文件系统和数据处理框架
Day 6: DeepSeek-V3/R1 推理系统概述

本文将重点分析 FlashMLA、DeepGEMM 和 3FS，并简要提及其他工具。

FlashMLA：高效解码内核

FlashMLA 是一个为 Hopper GPU 优化的高效解码内核，特别适用于 AI 模型的变长序列推理。根据 FlashMLA GitHub 的文档，其功能和特性包括：

安装与使用：通过 python setup.py install 安装，提供基准测试脚本 tests/test_flash_mla.py，在 H800 SXM5 上达到 3000 GB/s 内存带宽和 580 TFLOPS 计算性能（CUDA 12.8）。
特性：支持 BF16 和 FP16，采用分页 KV 缓存（块大小 64），优化变长序列，需 Hopper GPU 和 CUDA 12.3+（推荐 12.8+），PyTorch 2.0+。
社区支持：与 MetaX、Moore Threads、Hygon DCU、Intellifusion 和 Iluvatar Corex 等合作，提供扩展支持。

其重要性在于加速 AI 模型的推理过程，尤其在实时应用和大规模部署中。例如，处理变长序列（如文本生成）时，FlashMLA 显著减少延迟，提升性能。

DeepGEMM：优化 FP8 矩阵乘法库

DeepGEMM 提供优化后的 FP8 GEMM 内核，支持普通和 MoE 分组 GEMM，针对 Hopper GPU 进行了优化。根据 DeepGEMM GitHub 的文档，其详细特性如下：

功能文档：包括 deep_gemm.gemm_fp8_fp8_bf16_nt 等函数，测试代码在 /tests/test_core.py，支持 Python 3.8+、CUDA 12.3+、PyTorch 2.1+。
性能：在 H800 SXM5 上测试，与 CUTLASS 3.6 比较，普通 GEMM 速度提升 1.4x 至 2.7x，分组 GEMM 也有显著提升（见下表）。

类型	M	N	K	计算性能 (TFLOPS)	内存带宽 (GB/s)	速度提升
普通 GEMM (密集)	64	2112	7168	206	1688	2.7x
普通 GEMM (密集)	64	24576	1536	289	2455	1.7x
分组 GEMM (MoE, 连续)	4	8192	4096	7168	1297	418

优化：采用持久化 warp 特化、Hopper TMA 特性（如多播和描述符预取），支持非对齐块大小，FFMA SASS 交错优化提升 10%+ 性能。
重要性：矩阵乘法是 AI 计算的核心，DeepGEMM 通过 FP8 降低精度，减少内存和计算成本，特别适合大型模型训练和推理。

3FS：高性能并行文件系统

3FS（Fire-Flyer File System）是一个为 AI 工作负载设计的高性能并行文件系统，根据 3FS GitHub 的文档，其功能和性能包括：

架构：采用分离式架构，结合数千 SSD 的吞吐量和数百存储节点的网络带宽，采用 Chain Replication with Apportioned Queries (CRAQ) 确保一致性。
特性：支持无状态元数据服务（基于事务性键值存储如 FoundationDB），优化数据准备、数据加载器、检查点和 KVCache。
性能：在 180 节点集群上峰值吞吐量 6.6 TiB/s，GraySort 基准测试在 25 节点集群上达到 3.66 TiB/min，KVCache 每客户端节点峰值读吞吐量 40+ GiB/s。

其重要性在于处理 AI 模型所需的海量数据，确保高效的数据访问和存储，特别适合大规模训练和推理任务。

其他工具概述

除了上述核心工具，DeepSeek 还发布了以下工具：

DeepEP： 根据 DeepEP GitHub，这是一个 MoE 模型训练和推理的通信库，支持高吞吐量、低延迟的 GPU 内核，优化 NVLink 和 RDMA 通信。
DualPipe： 根据 DualPipe GitHub，是一个双向管道并行算法，优化训练中的计算-通信重叠，减少管道气泡，提升效率。
**EPLB 和 profile-data：**分别用于专家并行负载平衡和分析计算-通信重叠。
**smallpond：**基于 3FS 的数据处理框架，优化 AI 数据准备。

这些工具进一步增强了 AI 开发中的通信和并行处理能力，详情见 DeepSeek Open Infra Index。

Day 6：DeepSeek-V3/R1 推理系统概述

第 6 天发布了 DeepSeek-V3/R1 推理系统的概述，优化了跨节点专家并行（EP）驱动的批量扩展、计算-通信重叠和负载平衡，达到每 H800 节点 73.7k 输入和 14.8k 输出 token 每秒，成本利润率 545%。详情见 Day 6 Overview（英文）和知乎文章（中文）。

小结

这些技术的意义和作用可以比喻为高速列车的关键部件：

FlashMLA 是先进的推进系统，驱动列车高速运行，象征快速 AI 模型推理。
DeepGEMM 是高效的电力分配系统，确保能量优化传递，代表高效计算操作。
3FS 是先进的信号和轨道系统，处理复杂路线和大量交通，反映高效数据管理。

正如每个部件对列车的顺利运行至关重要，这些技术共同确保 AI 系统的效率和可扩展性。

关键引用