NVIDIA BlueField-3 与 NVIDIA DOCA 重塑 AI 数据中心基础设施

生成式 AI 的兴起带来了新的挑战和机遇。12月2日NVIDIA 的DPU & DOCA技术专家崔岩带来了一场以《NVIDIA BlueField-3 与 NVIDIA DOCA 重塑 AI 数据中心基础设施》为主题的直播演讲。演讲中介绍了NVIDIA BlueField 网络平台及 NVIDIA DOCA 软件框架,旨在为各种环境中的多种工作负载提供加速的基础设施,以实现网络"运力"的高性能蜕变。

1.数据中心的需求与挑战

演讲中首先抛出了数据中心目前面临的需求与挑战,不仅要在性能、安全性和可靠性方面达到高标准,还需要积极应对技术进步带来的各种挑战,同时关注成本效益和社会责任。

随着摩尔定律接近物理极限,传统单一 CPU 性能提升难以满足 AI、大数据和高性能计算等现代工作负载的需求。AI模型复杂性增加,训练和推理的计算能力需求呈指数级增长,促使数据中心必须突破传统计算架构的限制。异构计算成为关键,通过引入GPU、DPU 等专用硬件加速器,实现计算任务的分工协作,释放计算潜力。GPU 擅长处理高密度并行计算任务,尤其在AI训练中表现突出,而DPU则通过卸载网络、存储和安全计算任务,进一步释放CPU 资源。

人工智能不仅成为主要的工作负载类型,AI驱动的基础设施智能化也为数据中心管理、优化和自动化提供了新的视角。AI能够实时分析工作负载需求,优化资源分配,在多租户环境中实现高效利用计算、存储和网络资源。通过预测性维护、能耗优化和负载均衡等功能,AI 显著降低数据中心的运营成本。例如 AI 算法可以预测硬件故障,并在问题发生前采取措施。NVIDIA 通过其 DOCA 软件框架,结合 BlueField3 DPU,支持开发者构建智能化的基础设施应用,使 AI 在数据中心管理中发挥更大作用。

随着 AI和大数据工作负载的快速增长,数据中心的网络架构正经历转型,以应对更高的带宽需求、更低的延迟要求及更复杂的多租户场景。传统以太网架构在AI训练中的瓶颈越来越明显,推动了高性能网络解决方案的快速发展。NVIDIA BlueField DPU 通过加速虚拟化和加密功能,提升隔离性和数据加密能力,检测威胁并快速响应,增强灾备与恢复能力,确保业务连续性,为多租户环境提供更高的性能和复杂的多样化安全保障。

2.NVIDIA BlueField-3网络平台

BlueField-3是一款纯异构平台,集成了针对网卡处理的ASIC、标准的ARM CPU和基于 RISC-V 架构的数据路径加速器,通过可编程接口实现多样化功能。该产品支持高达400Gbps的网络流量,并支持对RDMA 和 ROCE的加速。BlueField-3 还支持下一代网络防火墙等安全功能,支持多种加密的硬件加速。此外,它能够实现存算分离,支持 NVMe-oF 和 NVMe/TCP 存储设备,并提供静态数据加密、去重和压缩等功能。相较于前代产品 BlueField-2,BlueField-3 在性能上有显著提升,新一代 BlueField-3 平台不仅增强了网络带宽,还提高了 ARM 算力及内存容量。

NVIDIA BlueField 网络平台包括 BlueField-3 DPU 和 BlueField-3 SuperNIC 产品。NVIDIA BlueField-3 DPU 是第三代基础设施计算平台,该平台使企业能够构建从云到核心数据中心再到边缘的软件定义、硬件加速的IT基础设施。借助400Gb/s以太网或NDR 400Gb/s InfiniBand 网络连接,BlueField-3 DPU 可以卸载、加速和隔离软件定义的网络、存储、安全和管理功能,从而显著提高数据中心的性能、效率和安全性;BlueField-3 SuperNIC 是一款基于 BlueField-3 网络平台的新型网络加速器,专为强力支持超大规模AI工作负载而设计。它专用于满足网络密集型大规模并行计算的需求,可在GPU服务器之间通过融合以太网的远程直接内存访问技术提供高达400Gb/s的连接,从而优化AI工作负载峰值效率。

3.NVIDIA DOCA库

NVIDIA DOCA是NVIDIA推出的一项关键技术,核心目标在于充分发挥NVIDIA BlueField DPU在数据中心工作负载处理方面的优势,提供高性能、安全的数据中心基础设施解决方案。应用主要集中在数据中心的基础设施优化、网络安全以及高性能计算等方面。它能够帮助实现更高效的数据处理、存储和传输,提升服务质量和响应速度;同时,通过提供零信任保护机制,确保数据的完整性和安全性。DOCA 由 SDK 和Runtime 两部分组成。SDK提供了行业标准的开放API和软件框架,支持多种操作系统和发行版,并包括驱动程序、库、工具、文档和示例应用程序。Runtime 则包括用于在数据中心中数百或数千个 DPU 和 SuperNICs 上配备、部署和编排容器化服务的工具。

4.用户体验总结

演讲分享会上老师推荐了多个体验demo,实际展现了BlueField-3 DPU 与DOCA优秀性能。相关技术爱好者们实际操作体验了BlueField-3 DPU与DOCA,并纷纷给出了体验感受。

Junyue同学通过在 BlueField-3 DPU 上构建 DOCA DPA All-to-all应用程序,使用 4 个进程运行 DOCA DPA All to All 应用程序,消息大小为 32 字节,并使用 mlx5_0 作为RDMA设备,深入了解了NVIDIA BlueField-3 DPU和DOCA软件框架的强大功能及其在实际应用场景中的表现。他表示:"无论是从强大的硬件加速能力,或是可编程的基础设施,还是卓越的安全性和可恢复性、开发与测试的便捷性,都让我深刻认识到NVIDIA BlueField-3 DPU和DOCA软件框架是当前数据中心变革的最佳解决方案"。

Rever5e同学通过使用 NVIDIA BlueField-3 DPU 提供的数据路径加速器(DPA)来优化 MPI All to All通信,并使用流量工具捕获和统计接口流量来验证DPU网络处理能力。不仅加深了对 DPU 技术的理解,也展示了其在实际应用中的巨大潜力。他说到:"虽然当前 DPU 卡的成本较高,主要用于商业环境中的数据中心,但对于有兴趣的个人用户来说,NVIDIA BlueField-2 DPU 也是一个不错的选择。随着技术的不断发展,DPU 必将在未来的数据中心架构中扮演更加重要的角色。"

雪纺同学通过一步步搭建DOCA开发相关环境,运行一个 MPI 程序来模拟发送数据,并对结果进行分析对比,发现DPA All-to-All可以有效提升数据处理速度,对自己正在做的高频交易系统场景很有帮助。雪纺同学表示:"通过这次实践,我不仅积累了宝贵的经验,还对 DPU 和 DPA 技术在高频交易领域的应用前景有了更深入的理解。随着技术的不断成熟和成本的降低,这类技术将在金融市场的高效交易中发挥越来越重要的作用。"

hpc_cs同学通过搭建DOCA开发相关环境,编译执行官方示例,使两个设备在DPU上进行数据交换,并观察运行结果。通过此次实验认识了解了DOCA 和 DPU,DPU 位于数据中心的服务器节点,DOCA 是用于在 BlueField DPU 上开发应用程序的软件框架。借助 DOCA,可以将原本主机 CPU 负责的数据处理和传输工作卸载到 DPU 上并加速基础设施工作负载。借助这些服务,DPU 可以成为与业务隔离的、安全的基础设施域。通过后续进一步深入,我还了解到有一些手段可以简化 BlueField DPU 上的服务创建流程,比如网络中,DPU 可以加速 SDN 和 NFV,开放虚拟交换 OVS 和 Overlay 网络等。存储方面,DPU还支持加速定义的弹性存储、NVMe-oF、RoCE、数据压缩等,通过提供弹性块存储和远程存储,降低延迟提高吞吐量。"

相关推荐
偶信科技6 分钟前
国产极细拖曳线列阵:16mm“水下之耳”如何撬动智慧海洋新蓝海?
人工智能·科技·偶信科技·海洋设备·极细拖曳线列阵
Java后端的Ai之路28 分钟前
【神经网络基础】-神经网络学习全过程(大白话版)
人工智能·深度学习·神经网络·学习
庚昀◟43 分钟前
用AI来“造AI”!Nexent部署本地智能体的沉浸式体验
人工智能·ai·nlp·持续部署
喜欢吃豆1 小时前
OpenAI Realtime API 深度技术架构与实现指南——如何实现AI实时通话
人工智能·语言模型·架构·大模型
数据分析能量站1 小时前
AI如何重塑个人生产力、组织架构和经济模式
人工智能
wscats2 小时前
Markdown 编辑器技术调研
前端·人工智能·markdown
AI科技星2 小时前
张祥前统一场论宇宙大统一方程的求导验证
服务器·人工智能·科技·线性代数·算法·生活
GIS数据转换器2 小时前
基于知识图谱的个性化旅游规划平台
人工智能·3d·无人机·知识图谱·旅游
EnoYao2 小时前
Markdown 编辑器技术调研
前端·javascript·人工智能
TMT星球2 小时前
曹操出行上市后首次战略并购,进军万亿to B商旅市场
人工智能·汽车