技术栈
3fs
大隐隐于野
1 天前
3fs
基于eRDMA实测DeepSeek开源的3FS
DeepSeek昨天开源了3FS分布式文件系统, 通过180个存储节点提供了 6.6TiB/s的存储性能, 全面支持大模型的训练和推理的KVCache转存以及向量数据库等能力, 每个客户端节点支持40+GB/s峰值吞吐用于KVCache查找.
木亦汐丫
4 天前
flashmla
·
deepep
·
deepgemm
·
dualpipe
·
eplb
·
3fs
·
smallpond
【大模型系列篇】DeepSeek开源周,解锁AI黑科技
Flash MLA是一个针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计。与传统解码器相比,Flash MLA在处理可变长度序列时,能够显著提高计算效率和速度。这对于自然语言处理、图像识别、语音识别等需要大规模数据处理的应用场景具有重要意义,可以加速模型训练和推理过程,提升AI应用的性能和效率。