科大讯飞基于Volcano实现AI基础设施突破,赢得CNCF最终用户案例研究竞赛

中国,香港,2025年6月10日 \] 云原生计算基金会(CNCF)宣布,科大讯飞赢得 CNCF 最终用户案例研究竞赛。CNCF致力于构建可持续的云原生软件生态,科大讯飞凭借其在 Volcano 上的创新应用脱颖而出,获得本次殊荣,于6月10日至11日在香港举行的KubeCon + CloudNativeCon China 大会上,分享其大规模 AI 模型训练的成功经验。 作为专注于语音和语言 AI 的中国科技公司,科大讯飞在业务快速增长过程中遇到了扩展难题。调度效率低导致 GPU 资源利用不足,工作流管理复杂,团队间资源争抢激烈,这些问题拖慢了研发进度,也给基础设施带来压力。使用 Volcano 后,科大讯飞实现了弹性调度、基于 DAG 的工作流和多租户隔离,简化了操作流程,显著提升了资源利用率。 "在使用 Volcano 之前,跨团队协调大规模 GPU 集群训练就像不断'灭火',资源瓶颈、任务失败和复杂的训练管道调试层出不穷,"科大讯飞高级平台架构师 DongJiang 表示。"Volcano 让我们拥有更灵活的控制权,能够高效可靠地扩展 AI 训练。CNCF 对我们的认可令我们倍感荣幸,我们也很期待在 KubeCon + CloudNativeCon China 现场与更多同行分享我们的实践经验。" Volcano 是基于 Kubernetes 构建的云原生批处理系统,专为 AI/机器学习训练、大数据处理和科学计算等高性能工作负载设计。它提供先进的调度功能,如任务编排、资源公平分配和队列管理,能够高效管理大规模分布式任务。自 2020 年加入 CNCF Sandbox 项目,2022 年晋升为 Incubating 阶段项目,Volcano 已成为处理计算密集型任务的关键工具。 随着 AI 需求不断增长,科大讯飞选择 Volcano 来应对训练基础设施日益复杂和庞大的挑战。工程团队需要更高效的资源分配方案,管理多阶段复杂训练工作流,减少任务中断,并保障不同团队的公平资源使用。借助 Volcano,他们实现了: * **GPU 利用率提升 40%**,显著降低基础设施成本和计算资源闲置。 * **任务失败恢复速度提升 70%**,确保训练过程不中断。 * **超参数搜索加速 50%**,推动更快的迭代和创新。 CNCF 首席技术官 Chris Aniszczyk 表示:"科大讯飞的案例展示了开源技术如何解决复杂且关键的规模化挑战。通过 Volcano 提升 GPU 效率和优化训练工作流,他们降低了成本,加快了开发,并在 Kubernetes 平台上构建了更可靠的 AI 基础设施,这对所有致力于 AI 领先的组织都至关重要。" 随着 AI 工作负载变得更加复杂和资源密集,科大讯飞的实践证明,Volcano 等云原生工具能够帮助团队简化运营、提升扩展能力。其在 KubeCon + CloudNativeCon China 的分享,带来如何在 Kubernetes 环境下更有效管理分布式训练的实用经验,参考Keynote议题:[kccncchn2025.sched.com/event/23EWS...](https://link.juejin.cn?target=https%3A%2F%2Fkccncchn2025.sched.com%2Fevent%2F23EWS%3Fiframe%3Dno "https://kccncchn2025.sched.com/event/23EWS?iframe=no") **[本文转载自CNCF](https://link.juejin.cn?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzI5ODk5ODI4Nw%3D%3D%26mid%3D2247554805%26idx%3D1%26sn%3Ddffc15f1455c96f3cbef4cdf6ef57abb%26scene%3D21%23wechat_redirect "https://mp.weixin.qq.com/s?__biz=MzI5ODk5ODI4Nw==&mid=2247554805&idx=1&sn=dffc15f1455c96f3cbef4cdf6ef57abb&scene=21#wechat_redirect")** Volcano 是业界首个云原生批量计算引擎,也是 CNCF 首个和唯一的批量计算项目。项目主要用于 AI、大数据、基因、渲染等诸多高性能计算场景,对主流通用计算框架均有很好的支持。目前,Volcano在人工智能、大数据、基因测序等海量数据计算和分析场景已得到快速应用,已完成对 Spark、Flink、Ray、 Tensorflow、PyTorch、Argo、MindSpore、Paddlepaddle 、Kubeflow、MPI、Horovod、Mxnet、KubeGene 等众多主流计算框架的支持,并构建起完善的上下游生态。 **Website** :[volcano.sh](https://link.juejin.cn?target=https%3A%2F%2Fvolcano.sh "https://volcano.sh") **GitHub:** [github.com/volcano-sh/...](https://link.juejin.cn?target=https%3A%2F%2Fgithub.com%2Fvolcano-sh%2Fvolcano "https://github.com/volcano-sh/volcano") \*\*每周例会:\*\*[zoom.us/j/918047913...](https://link.juejin.cn?target=https%3A%2F%2Fzoom.us%2Fj%2F91804791393 "https://zoom.us/j/91804791393")

相关推荐
955.2 小时前
k8s从入门到放弃之k3s轻量级
云原生·容器·kubernetes
Prokint.11 小时前
GPU算力租用平台推荐(AI/游戏串流/渲染/办公)
人工智能·游戏·云计算·gpu算力
悟纤12 小时前
Docker 操作容器[SpringBoot之Docker实战系列] - 第538篇
spring boot·docker·容器
MonkeyKing_sunyuhua13 小时前
直接使用阿里云OSS的地址,报跨域访问的问题怎么解决
阿里云·云计算
Tony66668888814 小时前
【基于阿里云上Ubantu系统部署配置docker】
阿里云·docker·云计算
伊成15 小时前
详解docker挂载目录常用方式
docker·容器·eureka
风清再凯15 小时前
docker镜像的构建image
运维·docker·容器
风清再凯15 小时前
docker 网络
网络·docker·容器
饭碗、碗碗香15 小时前
【开发常用命令】:docker常用命令
linux·运维·笔记·学习·docker·容器
rocksun17 小时前
云原生和开源助力扩展Agentic AI工作流
人工智能·云原生·开源