技术栈
gpu 算力调度
数据与后端架构提升之路
4 小时前
gpu 算力调度
搭建千卡 GPU 算力调度平台:一套完整的 AI 智算中心知识体系
AI Infra 的知识点——K8s 调度、GPU 切分、RDMA、大模型并行、Go 底层——单独看都很零散,背完就忘。但它们其实围绕同一个真实目标在协同:给你 1000 张 A100,搭一个让全公司算法团队都能用、还要把利用率榨干的算力调度平台。本文以这个项目为主线,把这些技术从孤立的名词,还原成解决具体业务痛点的工具,最终拼成一张完整的架构地图。
我是有底线的