DeepSeek 开源周:在 AGI 探索中不断挑战自己的极限

(下面文字主要由 Grok 3 协助生成)

背景与概述

DeepSeek 的开源周始于 2025 年 2 月 24 日,发布了 一批生产测试过的 AI 基础设施工具。这些工具旨在支持高效的 AGI(通用人工智能)开发,并为社区提供可构建的基础设施,加速社区创新,推动 AI 技术的发展。也体现了其"无虚言,仅真诚代码"的开发理念。

根据 DeepSeek Open Infra Index,发布的存储库包括:

  • Day 1: FlashMLA - 高效 MLA 解码内核

  • Day 2: DeepEP - MoE 模型训练和推理的通信库

  • Day 3: DeepGEMM - FP8 GEMM 库

  • Day 4: DualPipe、EPLB、profile-data - 训练优化工具

  • Day 5: 3FS 和 smallpond - 文件系统和数据处理框架

  • Day 6: DeepSeek-V3/R1 推理系统概述

本文将重点分析 FlashMLA、DeepGEMM 和 3FS,并简要提及其他工具。

FlashMLA:高效解码内核

FlashMLA 是一个为 Hopper GPU 优化的高效解码内核,特别适用于 AI 模型的变长序列推理。根据 FlashMLA GitHub 的文档,其功能和特性包括:

  • 安装与使用:通过 python setup.py install 安装,提供基准测试脚本 tests/test_flash_mla.py,在 H800 SXM5 上达到 3000 GB/s 内存带宽和 580 TFLOPS 计算性能(CUDA 12.8)。

  • 特性:支持 BF16 和 FP16,采用分页 KV 缓存(块大小 64),优化变长序列,需 Hopper GPU 和 CUDA 12.3+(推荐 12.8+),PyTorch 2.0+。

  • 社区支持:与 MetaX、Moore Threads、Hygon DCU、Intellifusion 和 Iluvatar Corex 等合作,提供扩展支持。

其重要性在于加速 AI 模型的推理过程,尤其在实时应用和大规模部署中。例如,处理变长序列(如文本生成)时,FlashMLA 显著减少延迟,提升性能。

DeepGEMM:优化 FP8 矩阵乘法库

DeepGEMM 提供优化后的 FP8 GEMM 内核,支持普通和 MoE 分组 GEMM,针对 Hopper GPU 进行了优化。根据 DeepGEMM GitHub 的文档,其详细特性如下:

  • 功能文档:包括 deep_gemm.gemm_fp8_fp8_bf16_nt 等函数,测试代码在 /tests/test_core.py,支持 Python 3.8+、CUDA 12.3+、PyTorch 2.1+。

  • 性能:在 H800 SXM5 上测试,与 CUTLASS 3.6 比较,普通 GEMM 速度提升 1.4x 至 2.7x,分组 GEMM 也有显著提升(见下表)。

类型 M N K 计算性能 (TFLOPS) 内存带宽 (GB/s) 速度提升
普通 GEMM (密集) 64 2112 7168 206 1688 2.7x
普通 GEMM (密集) 64 24576 1536 289 2455 1.7x
分组 GEMM (MoE, 连续) 4 8192 4096 7168 1297 418
  • 优化:采用持久化 warp 特化、Hopper TMA 特性(如多播和描述符预取),支持非对齐块大小,FFMA SASS 交错优化提升 10%+ 性能。

  • 重要性:矩阵乘法是 AI 计算的核心,DeepGEMM 通过 FP8 降低精度,减少内存和计算成本,特别适合大型模型训练和推理。

3FS:高性能并行文件系统

3FS(Fire-Flyer File System)是一个为 AI 工作负载设计的高性能并行文件系统,根据 3FS GitHub 的文档,其功能和性能包括:

  • 架构:采用分离式架构,结合数千 SSD 的吞吐量和数百存储节点的网络带宽,采用 Chain Replication with Apportioned Queries (CRAQ) 确保一致性。

  • 特性:支持无状态元数据服务(基于事务性键值存储如 FoundationDB),优化数据准备、数据加载器、检查点和 KVCache。

  • 性能:在 180 节点集群上峰值吞吐量 6.6 TiB/s,GraySort 基准测试在 25 节点集群上达到 3.66 TiB/min,KVCache 每客户端节点峰值读吞吐量 40+ GiB/s。

其重要性在于处理 AI 模型所需的海量数据,确保高效的数据访问和存储,特别适合大规模训练和推理任务。

其他工具概述

除了上述核心工具,DeepSeek 还发布了以下工具:

  • DeepEP: 根据 DeepEP GitHub,这是一个 MoE 模型训练和推理的通信库,支持高吞吐量、低延迟的 GPU 内核,优化 NVLink 和 RDMA 通信。

  • DualPipe: 根据 DualPipe GitHub,是一个双向管道并行算法,优化训练中的计算-通信重叠,减少管道气泡,提升效率。

  • **EPLB 和 profile-data:**分别用于专家并行负载平衡和分析计算-通信重叠。

  • **smallpond:**基于 3FS 的数据处理框架,优化 AI 数据准备。

这些工具进一步增强了 AI 开发中的通信和并行处理能力,详情见 DeepSeek Open Infra Index

Day 6:DeepSeek-V3/R1 推理系统概述

第 6 天发布了 DeepSeek-V3/R1 推理系统的概述,优化了跨节点专家并行(EP)驱动的批量扩展、计算-通信重叠和负载平衡,达到每 H800 节点 73.7k 输入和 14.8k 输出 token 每秒,成本利润率 545%。详情见 Day 6 Overview(英文)和 知乎文章(中文)。

小结

这些技术的意义和作用可以比喻为高速列车的关键部件:

  • FlashMLA 是先进的推进系统,驱动列车高速运行,象征快速 AI 模型推理。

  • DeepGEMM 是高效的电力分配系统,确保能量优化传递,代表高效计算操作。

  • 3FS 是先进的信号和轨道系统,处理复杂路线和大量交通,反映高效数据管理。

正如每个部件对列车的顺利运行至关重要,这些技术共同确保 AI 系统的效率和可扩展性。

关键引用

相关推荐
simplify203 小时前
【译】Anthropic:推理模型的思维链并非总是忠实
llm·deepseek
getyefang5 小时前
uniapp如何接入星火大模型
ai·uni-app
Liudef066 小时前
deepseek v3-0324实现SVG 编辑器
开发语言·javascript·编辑器·deepseek
自由鬼7 小时前
开源虚拟化管理平台Proxmox VE部署超融合
linux·运维·服务器·开源·虚拟化·pve
SelectDB技术团队7 小时前
Apache Doris 2025 Roadmap:构建 GenAI 时代实时高效统一的数据底座
大数据·数据库·数据仓库·人工智能·ai·数据分析·湖仓一体
你觉得2057 小时前
浙江大学朱霖潮研究员:《人工智能重塑科学与工程研究》以蛋白质结构预测为例|附PPT下载方法
大数据·人工智能·机器学习·ai·云计算·aigc·powerpoint
蚝油菜花8 小时前
DeepSite:基于DeepSeek的开源AI前端开发神器,一键生成游戏/网页代码
人工智能·开源
蚝油菜花8 小时前
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
人工智能·开源
蚝油菜花8 小时前
DreamActor-M1:字节跳动推出AI动画黑科技,静态照片秒变生动视频
人工智能·开源
buxuku20088 小时前
从 0 到 2K Star:我的开源之旅与成长
开源