2025 年12 月16 日 某AI撰写
英伟达(NVIDIA)于2025年12月15日宣布收购开源工作负载管理器Slurm背后的主要开发公司SchedMD [1]。这一举动远非一次孤立的商业并购,而是继其收购Mellanox和run:ai之后,英伟达精心策划的"三步走"战略的收官之作。通过将高性能网络、云原生AI调度和传统HPC(高性能计算)调度悉数收入囊中,英伟达正加速完成其从芯片到软件、从硬件基础设施到工作负载编排的全面垂直整合,意图构建一个难以逾越的AI生态帝国。
一、战略背景:从网络到编排的系统性布局
要理解收购SchedMD的深远意义,必须回顾英伟达近年来的两次关键收购,它们共同构成了此次行动的战略背景。
1. 收购Mellanox(2020年):掌控数据流动的"高速公路"
2020年,英伟达以70亿美元完成对Mellanox的收购 [2]。此举的核心目标是强化其数据中心战略,补全"三芯战略"(CPU、GPU、DPU)中的关键一环------DPU(数据处理单元)。Mellanox的InfiniBand和高速以太网技术是构建现代数据中心的基石,其开发的SmartNIC(智能网卡)技术正是DPU的前身。
DPU是一种新型的可编程处理器,它将成为继CPU和GPU之后的第三大计算支柱。CPU用于通用计算,GPU用于加速计算,而DPU则在数据中心内部移动数据并进行数据处理。 [3]
通过Mellanox,英伟达获得了控制数据在服务器之间、在GPU与存储之间高速流动的能力。这不仅解决了GPU集群规模扩大带来的网络瓶颈,更通过DPU将网络、存储和安全等基础设施任务从CPU中卸载,极大地提升了整个数据中心的效率和安全性。可以说,收购Mellanox让英伟达掌握了AI工厂的"神经网络"和"高速公路"。
2. 收购run:ai(2024年):抢占云原生AI调度的"指挥中心"
2024年,英伟达收购了基于Kubernetes的AI工作负载管理与编排平台run:ai [4]。这次收购的目标直指现代AI应用的管理核心------云原生环境下的GPU资源调度。随着AI应用越来越多地被容器化并部署在Kubernetes上,如何高效地虚拟化、分配和管理昂贵的GPU资源成为关键痛点。
run:ai平台精于此道,它允许企业将GPU资源池化,实现从GPU切片(fractions of GPUs)到多节点GPU的灵活调度。收购后,英伟达迅速将其核心技术开源,推出了KAI-Scheduler [5],直接对标华为等竞争对手在云原生批量计算领域推出的Volcano调度器。此举意在将英伟达的影响力从硬件延伸至云原生软件层,争夺AI工作负载在Kubernetes生态中的"指挥权"。
二、终局之战:收购SchedMD,统一调度江湖
在分别掌控了"数据高速公路"(Mellanox)和"云原生AI调度指挥中心"(run:ai)之后,收购SchedMD成为了英伟达完成其基础设施版图的最后一块,也是至关重要的一块拼图。
Slurm:HPC领域的"王者"与AI训练的"新宠"
Slurm (Simple Linux Utility for Resource Management) 是全球HPC领域应用最广泛的开源工作负载管理器,在TOP500超级计算机中占据超过半数的份额 [1]。它专为管理大规模、长时间运行、紧密耦合的并行计算任务而设计,以其卓越的可扩展性、稳定性和精细的资源控制能力而著称。
随着大语言模型(LLM)的兴起,AI训练任务的规模和复杂性急剧增加,越来越趋近于传统的HPC工作负载。动辄需要数千块GPU、运行数周的LLM训练,对调度器的要求与HPC高度一致。因此,原本在HPC领域占据主导地位的Slurm,也自然而然地成为了许多顶级AI研究机构和公司的首选调度器。
收购的战略意义:一箭三雕
英伟达收购SchedMD,至少实现了三个层面的战略目标:
| 战略目标 | 具体分析 |
|---|---|
| 1. 统一调度范式,弥合HPC 与AI 的鸿沟 | 历史上,HPC和AI领域形成了两大调度阵营:以Slurm为代表的传统批处理调度系统和以Kubernetes为代表的云原生调度系统。英伟达通过KAI-Scheduler和Slurm,同时掌握了这两个领域的关键钥匙。这使其能够为客户提供一个统一的解决方案,无论工作负载是需要弹性、快速迭代的云原生应用,还是需要极致性能、大规模并行的大模型训练,都能在英伟达的生态体系内找到最优解。 |
| 2. 强化垂直整合,构建无法逾越的生态护城河 | 控制了调度器,就等于控制了计算资源的分配法则。英伟达承诺将继续保持Slurm的开源和中立,但毫无疑问,未来的Slurm版本将与英伟达的硬件(GPU、DPU、NVLink)进行深度优化和集成。这种"软硬协同"将创造出无与伦比的性能优势,使用户为了获得最佳性能而倾向于采用英伟达的全栈解决方案(从芯片到网络再到调度软件),从而形成强大的生态锁定效应,这与CUDA的成功逻辑如出一辙。 |
| 3. 压制与防御,巩固领导地位 | 此举也具有明显的防御性质。它阻止了竞争对手(如Intel、AMD)或大型云服务商通过支持或影响Slurm社区来挑战英伟达的地位。通过将Slurm的未来发展牢牢掌握在自己手中,英伟达确保了在AI基础设施的最顶层------工作负载编排层------继续保持其主导地位,从而更全面地定义AI计算的未来。 |
三、行业影响与未来展望
英伟达对SchedMD的收购,标志着AI基础设施领域的竞争已进入"全栈为王"的时代。这一系列战略布局将对整个行业产生深远影响:
- 对竞争对手:AMD和Intel等芯片制造商面临的挑战愈发严峻。它们不仅要在硬件性能上追赶,还必须面对一个由CUDA、NVLink、KAI和Slurm共同构建的、高度优化的软件与硬件结合的"超级生态系统"。单纯提供硬件已不足以竞争,构建一个有吸引力的、开放的替代生态成为当务之急。
- 对云服务商:AWS、Google Cloud和Azure等云巨头虽然拥有自研芯片和强大的云平台,但也面临新的变数。它们既是英伟达的大客户,又是其潜在的竞争者。英伟达通过控制调度层,增强了其在混合云和多云环境中的话语权,可能会促使云服务商加速自研AI基础设施栈的步伐,以降低对英伟达的依赖。
- 对企业用户:短期内,用户可能会从Slurm与英伟达硬件更深度的集成中获益,获得更高的性能和效率。但长期来看,对"供应商锁定"的担忧将日益加剧。企业在选择技术路径时,将不得不在极致性能与开放性、灵活性之间做出更艰难的权衡。
结论
英伟达收购SchedMD,是其从一家GPU公司向AI基础设施平台公司转型的决定性一步。它标志着英伟达的战略重心已从单纯提升硬件算力,转向全面掌控从底层硬件、中层网络互联到上层软件调度的整个AI计算堆栈。通过这一系列环环相扣的收购,英伟达不仅在构建当下的AI工厂,更是在定义未来十年AI发展的"操作系统"。一个由英伟达深度定义的AI时代,正加速到来。
参考资料
1\] NVIDIA. (2025, December 15). *NVIDIA Acquires Open-Source Workload Management Provider SchedMD* . NVIDIA Blog. [https://blogs.nvidia.com/blog/nvidia-acquires-schedmd/](https://blogs.nvidia.com/blog/nvidia-acquires-schedmd/ "https://blogs.nvidia.com/blog/nvidia-acquires-schedmd/") \[2\] ATGBICS. (2024, November 5). *Why NVIDIA bought Mellanox* . [https://atgbics.com/blogs/tech-talk/why-nvidia-bought-mellanox](https://atgbics.com/blogs/tech-talk/why-nvidia-bought-mellanox "https://atgbics.com/blogs/tech-talk/why-nvidia-bought-mellanox") \[3\] NVIDIA. (2020, May 20). *What Is a DPU?* . NVIDIA Blog. [https://blogs.nvidia.com/blog/whats-a-dpu-data-processing-unit/](https://blogs.nvidia.com/blog/whats-a-dpu-data-processing-unit/ "https://blogs.nvidia.com/blog/whats-a-dpu-data-processing-unit/") \[4\] NVIDIA. (2024, April 24). *NVIDIA to Acquire GPU Orchestration Software Provider Run:ai* . NVIDIA Blog. [https://blogs.nvidia.com/blog/runai/](https://blogs.nvidia.com/blog/runai/ "https://blogs.nvidia.com/blog/runai/") \[5\] NVIDIA Developer. (2025, April 1). *NVIDIA Open Sources Run:ai Scheduler to Foster Community Collaboration* . [https://developer.nvidia.com/blog/nvidia-open-sources-runai-scheduler-to-foster-community-collaboration/](https://developer.nvidia.com/blog/nvidia-open-sources-runai-scheduler-to-foster-community-collaboration/ "https://developer.nvidia.com/blog/nvidia-open-sources-runai-scheduler-to-foster-community-collaboration/") \[6\] WhiteFiber. (2025, November 12). *Slurm vs Kubernetes for AI/ML workloads in 2025* . [https://www.whitefiber.com/blog/slurm-vs-kubernetes](https://www.whitefiber.com/blog/slurm-vs-kubernetes "https://www.whitefiber.com/blog/slurm-vs-kubernetes") \[7\] Everest Group. (2025, April 14). *Nvidia's Full-Stack Ambition: Owning the AI Value Chain* . [https://www.everestgrp.com/blog/nvidias-full-stack-ambition-owning-the-ai-value-chain-blog.html](https://www.everestgrp.com/blog/nvidias-full-stack-ambition-owning-the-ai-value-chain-blog.html "https://www.everestgrp.com/blog/nvidias-full-stack-ambition-owning-the-ai-value-chain-blog.html")