生成式 AI 的兴起带来了新的挑战和机遇。12月2日NVIDIA 的DPU & DOCA技术专家崔岩带来了一场以《NVIDIA BlueField-3 与 NVIDIA DOCA 重塑 AI 数据中心基础设施》为主题的直播演讲。演讲中介绍了NVIDIA BlueField 网络平台及 NVIDIA DOCA 软件框架,旨在为各种环境中的多种工作负载提供加速的基础设施,以实现网络"运力"的高性能蜕变。
1.数据中心的需求与挑战
演讲中首先抛出了数据中心目前面临的需求与挑战,不仅要在性能、安全性和可靠性方面达到高标准,还需要积极应对技术进步带来的各种挑战,同时关注成本效益和社会责任。
随着摩尔定律接近物理极限,传统单一 CPU 性能提升难以满足 AI、大数据和高性能计算等现代工作负载的需求。AI模型复杂性增加,训练和推理的计算能力需求呈指数级增长,促使数据中心必须突破传统计算架构的限制。异构计算成为关键,通过引入GPU、DPU 等专用硬件加速器,实现计算任务的分工协作,释放计算潜力。GPU 擅长处理高密度并行计算任务,尤其在AI训练中表现突出,而DPU则通过卸载网络、存储和安全计算任务,进一步释放CPU 资源。
人工智能不仅成为主要的工作负载类型,AI驱动的基础设施智能化也为数据中心管理、优化和自动化提供了新的视角。AI能够实时分析工作负载需求,优化资源分配,在多租户环境中实现高效利用计算、存储和网络资源。通过预测性维护、能耗优化和负载均衡等功能,AI 显著降低数据中心的运营成本。例如 AI 算法可以预测硬件故障,并在问题发生前采取措施。NVIDIA 通过其 DOCA 软件框架,结合 BlueField3 DPU,支持开发者构建智能化的基础设施应用,使 AI 在数据中心管理中发挥更大作用。
随着 AI和大数据工作负载的快速增长,数据中心的网络架构正经历转型,以应对更高的带宽需求、更低的延迟要求及更复杂的多租户场景。传统以太网架构在AI训练中的瓶颈越来越明显,推动了高性能网络解决方案的快速发展。NVIDIA BlueField DPU 通过加速虚拟化和加密功能,提升隔离性和数据加密能力,检测威胁并快速响应,增强灾备与恢复能力,确保业务连续性,为多租户环境提供更高的性能和复杂的多样化安全保障。
2.NVIDIA BlueField-3网络平台
BlueField-3是一款纯异构平台,集成了针对网卡处理的ASIC、标准的ARM CPU和基于 RISC-V 架构的数据路径加速器,通过可编程接口实现多样化功能。该产品支持高达400Gbps的网络流量,并支持对RDMA 和 ROCE的加速。BlueField-3 还支持下一代网络防火墙等安全功能,支持多种加密的硬件加速。此外,它能够实现存算分离,支持 NVMe-oF 和 NVMe/TCP 存储设备,并提供静态数据加密、去重和压缩等功能。相较于前代产品 BlueField-2,BlueField-3 在性能上有显著提升,新一代 BlueField-3 平台不仅增强了网络带宽,还提高了 ARM 算力及内存容量。
NVIDIA BlueField 网络平台包括 BlueField-3 DPU 和 BlueField-3 SuperNIC 产品。NVIDIA BlueField-3 DPU 是第三代基础设施计算平台,该平台使企业能够构建从云到核心数据中心再到边缘的软件定义、硬件加速的IT基础设施。借助400Gb/s以太网或NDR 400Gb/s InfiniBand 网络连接,BlueField-3 DPU 可以卸载、加速和隔离软件定义的网络、存储、安全和管理功能,从而显著提高数据中心的性能、效率和安全性;BlueField-3 SuperNIC 是一款基于 BlueField-3 网络平台的新型网络加速器,专为强力支持超大规模AI工作负载而设计。它专用于满足网络密集型大规模并行计算的需求,可在GPU服务器之间通过融合以太网的远程直接内存访问技术提供高达400Gb/s的连接,从而优化AI工作负载峰值效率。
3.NVIDIA DOCA库
NVIDIA DOCA是NVIDIA推出的一项关键技术,核心目标在于充分发挥NVIDIA BlueField DPU在数据中心工作负载处理方面的优势,提供高性能、安全的数据中心基础设施解决方案。应用主要集中在数据中心的基础设施优化、网络安全以及高性能计算等方面。它能够帮助实现更高效的数据处理、存储和传输,提升服务质量和响应速度;同时,通过提供零信任保护机制,确保数据的完整性和安全性。DOCA 由 SDK 和Runtime 两部分组成。SDK提供了行业标准的开放API和软件框架,支持多种操作系统和发行版,并包括驱动程序、库、工具、文档和示例应用程序。Runtime 则包括用于在数据中心中数百或数千个 DPU 和 SuperNICs 上配备、部署和编排容器化服务的工具。
4.用户体验总结
演讲分享会上老师推荐了多个体验demo,实际展现了BlueField-3 DPU 与DOCA优秀性能。相关技术爱好者们实际操作体验了BlueField-3 DPU与DOCA,并纷纷给出了体验感受。
Junyue同学通过在 BlueField-3 DPU 上构建 DOCA DPA All-to-all应用程序,使用 4 个进程运行 DOCA DPA All to All 应用程序,消息大小为 32 字节,并使用 mlx5_0 作为RDMA设备,深入了解了NVIDIA BlueField-3 DPU和DOCA软件框架的强大功能及其在实际应用场景中的表现。他表示:"无论是从强大的硬件加速能力,或是可编程的基础设施,还是卓越的安全性和可恢复性、开发与测试的便捷性,都让我深刻认识到NVIDIA BlueField-3 DPU和DOCA软件框架是当前数据中心变革的最佳解决方案"。
Rever5e同学通过使用 NVIDIA BlueField-3 DPU 提供的数据路径加速器(DPA)来优化 MPI All to All通信,并使用流量工具捕获和统计接口流量来验证DPU网络处理能力。不仅加深了对 DPU 技术的理解,也展示了其在实际应用中的巨大潜力。他说到:"虽然当前 DPU 卡的成本较高,主要用于商业环境中的数据中心,但对于有兴趣的个人用户来说,NVIDIA BlueField-2 DPU 也是一个不错的选择。随着技术的不断发展,DPU 必将在未来的数据中心架构中扮演更加重要的角色。"
雪纺同学通过一步步搭建DOCA开发相关环境,运行一个 MPI 程序来模拟发送数据,并对结果进行分析对比,发现DPA All-to-All可以有效提升数据处理速度,对自己正在做的高频交易系统场景很有帮助。雪纺同学表示:"通过这次实践,我不仅积累了宝贵的经验,还对 DPU 和 DPA 技术在高频交易领域的应用前景有了更深入的理解。随着技术的不断成熟和成本的降低,这类技术将在金融市场的高效交易中发挥越来越重要的作用。"
hpc_cs同学通过搭建DOCA开发相关环境,编译执行官方示例,使两个设备在DPU上进行数据交换,并观察运行结果。通过此次实验认识了解了DOCA 和 DPU,DPU 位于数据中心的服务器节点,DOCA 是用于在 BlueField DPU 上开发应用程序的软件框架。借助 DOCA,可以将原本主机 CPU 负责的数据处理和传输工作卸载到 DPU 上并加速基础设施工作负载。借助这些服务,DPU 可以成为与业务隔离的、安全的基础设施域。通过后续进一步深入,我还了解到有一些手段可以简化 BlueField DPU 上的服务创建流程,比如网络中,DPU 可以加速 SDN 和 NFV,开放虚拟交换 OVS 和 Overlay 网络等。存储方面,DPU还支持加速定义的弹性存储、NVMe-oF、RoCE、数据压缩等,通过提供弹性块存储和远程存储,降低延迟提高吞吐量。"