AI Native基础设施的目标形态和它存在的一些挑战有哪些?K8s驱动异构算力面临挑战,下一代的K8s是渐进式优化,还是革命式的驱动AI的发展

K8s是非常成熟、生态也非常丰富的基础设施,可以搭建好用的训练和推理集群,但在AI应用场景中需要进一步优化,可在K8s基础上,构建对AI训练或者推理更友好生态。一些开源项目为AI推理提供用户友好的抽象(如Pod、Deployment、root角色),并实现缓存感知与负载均衡调度。

------ 杨珂 趋境科技技术专家/Mooncake核心开发者

百分之百的同学每天都在重度的在使用AI,很多本科生也会参与K8s等基础设施学习和探索中。但学校存在资源不足(缺卡),学生理解K8s如何搭建AI技术架构有gap。

------ 沃天宇openeFuyao社区技术委员会委员/北京航空航天大学软件学院教授

一种就是K8s逐渐去改进、逐渐去优化;另外一种就是bottom-up再出来一个新东西------现在革命者已经在那里了,e2b就是革命者,e2b没有用任何K8s的技术。

K8s的核心就两点:抽象和声明式架构一定要在沙箱的新型负载来了之后,快速前进,否则有可能会被后来居上。

------ 嘉宾 朱浩鹏社区顾问/华为Fellow

在AI时代,K8s对硬件的抽象仍然具有很强的延伸性和弹性,但在调度和敏捷性方面需要适当地"退化"。

一种选择是:让K8s回归底层资源池的基础,在其之上,构建一层更加亲和AI工作负载的敏捷管理层,专门负责Quota控制、沙箱隔离保障以及精细化资源配给。这种分层架构更贴合AI场景的实际需求。

------ 胡昊openFuyao技术委员会主席

K8s 的上层API和抽象在AI Native时代仍然是有必要的,核心抽象并没有问题,只是需要在调度侧加入AI Native的方式。首先要对 workload(负载)进行重新定义------因为AI Native的workload与之前K8s定义的微服务workload已经不同。完成重新定义之后,再去审视需要革新或优化的方面,例如调度、以及网络相关负载的优化。

------ 雷超vllm-ascend社区Maintainer

相关推荐
小星AI17 分钟前
Claude Code 从入门到精通,一步到位
人工智能
后端小肥肠23 分钟前
Codex + Obsidian 做人生副本视频:输入主题文案,直通剪映草稿
人工智能·aigc·agent
百度Geek说1 小时前
全链路研发智能体 ——从"体感能用"到"实际可用"的工程实践
人工智能
甲维斯2 小时前
500块的豆包,能帮我搞定这个么?!
人工智能
火山引擎开发者社区2 小时前
当 Agent 自己做 SRE:详解 ArkClaw 自动化可观测体系的工程实践
人工智能
Coffeeee4 小时前
两个例子,帮你快速理解什么是Token
人工智能·程序员·ai编程
饼干哥哥5 小时前
用AI全自动剪辑,日更 100条爆款视频——HyperFrames、Remotion、Git使用入门
人工智能·机器学习·ai编程
用户83244598541325 小时前
深入拆解 AlexNet:跟着一张猫咪照片,看数据如何流动
人工智能
饼干哥哥5 小时前
开源Skills|搭建亚马逊动态关键词库系统,每天抓SSS级机会词
人工智能·深度学习·数据分析
Weigang5 小时前
别等 Agent 上线后补评估:先用 DeepEval 写失败样本
人工智能