华为云亮相 KubeCon China 2025,开源生态引领 AI 时代技术跃迁

6月10日-11日,云原生计算基金会(CNCF)旗舰会议 KubeCon+CloudNativeCon China 2025 在中国香港盛大召开。华为云云原生技术团队在主题演讲, 分论坛,圆桌等多个会场带来10+场精彩演讲,深度分享云原生 AI 调度、智能边缘、多云容器、数据库、流量治理等领域前沿技术成果,领先构建 AI-Native 云原生基础设施,加速行业智能化升级。

开源生态引领AI时代技术跃迁

▍Towards Clouds of AI Clusters

会上,华为首席开源联络官, CNCF 基金会董事任旭东带来 "Towards Clouds of AI Clusters" Keynote 主题演讲,深度分享了AI原生时代的算力集群技术演进趋势,及华为在异构集群管理、云边协同AI、超大规模调度等领域的应用实践。

任旭东表示,当前企业在管理 AI 工作负载时,仍面临严峻挑战,尤其是在大模型训练、推理中对算力规模和集群协同的极高要求。应对大模型背后的算力困局,不仅需要异构硬件的高效协同,更依赖开源技术栈和分布式范式,如数据并行、模型并行、流水线并行进行深度支持,对异构算力的全栈兼容,最终才能在降低单位训练推理成本的同时,加速万亿参数级模型的商业化落地进程。

华为通过 openEuler、Volcano、Karmada、KubeEdge 等开源项目,从硬件驱动到集群资源调度实现算力设备的统一管理,支持 HyperNode 与多集群拓扑感知调度,并对 PyTorch / TensorFlow / MindSpore 等主流框架、大语言模型( LLMs )及智能体开发场景提供统一支持的全栈开源基础设施解决方案。

▍Volcano+Karmada 驱动 B 站亿级月活云原生AI调度

华为云云原生开源负责人,CNCF 技术监督委员会副主席王泽锋联合 Bilibili 资深研发工程师许龙,发表 "Optimizing AI Workload Scheduling: Bilibili's Journey to an Efficient Cloud Native AI Platform" Keynote 主题演讲,深入探讨 B 站人工智能工作负载调度优化实践。

Bilibili 拥有上亿月活用户,围绕视频业务覆盖搜索推荐、图像处理、视频编解码等多种应用场景。在 AI 技术深度渗透视频处理、模型训练等场景的当下,B站面对负载多样性、多集群管理等算力挑战,构建了以 Volcano 和 Karmada 为核心的调度框架:

单集群侧通过 Volcano 实现 Workload 统一调度,引入等价类调度与 JobSet 对象优化性能;多集群层用 Karmada 支撑在线任务联邦调度,自研轻量系统解决离线高吞吐需求。结合 GPU 共享调度、编解码混合等三种模式,在提升资源利用率的同时,为 B 站 AI 应用落地提供了高效的云原生算力支撑。

▍Volcano 助力科大讯飞实现AI基础设施突破,赢得 CNCF 最终用户案例

会上,华为云云原生团队高级工程师常旭征联合科大讯飞平台架构师董江,发表 "Scaling Model Training with Volcano: iFlytek's Kubernetes Breakthrough" Keynote****主题演讲,分享基于 Volcano 的云原生 AI 训练资源调度优化方案。

科大讯飞在大规模模型训练中借助 Volcano 实现关键突破:通过构建基于 Volcano 的统一计算平台,集成 AirFlow / Spark 等传统任务框架,以队列机制解决多租户资源公平分配问题,同时运用 Gang 调度、Binpack 算法及拓扑感知策略,将 GPU 利用率提升 40% 以上,故障恢复时间缩短 70%,资源干扰率降低 50%,保障业务稳定性和资源使用灵活性。

Volcano 是华为云发起开源的业界首个云原生批量计算引擎,也是 CNCF 首个批量计算项目,主要用于 AI、大数据、基因、渲染等诸多高性能计算场景,能力涵盖队列与资源管理、统一作业 API、多样化调度策略、在离线混部、GPU 虚拟化、异构算力支持及性能优化等关键领域。针对当前大规模AI集群的性能问题,Volcano 新增基于 HyperNode 的网络拓扑感知调度策略,大幅提升人工智能训练和推理效率。

Cloud Native for AI,云原生使能大规模人工智能产业发展

▍Karmada:破解AI任务部署多集群编排难题,支撑大规模数据平台的弹性与可靠性

Karmada 作为云原生多云多集群管理引擎备受用户与开发者欢迎。来自华为云的Karmada 社区 Maintainer 任洪彩,围绕 Karmada 的技术更新、核心特性、实际应用案例及社区生态展开,讲解了近期版本中备受关注的应用跨集群滚动更新,有状态应用故障迁移,优先级调度机制,Dashboard,联邦资源配额等特性。

同时,华为云技术团队也与 Bloomberg 进行了社区合作交流。 Bloomberg 分享了其利用 Karmada 构建弹性数据分析平台的实践经验,展示了 Karmada 在多集群管理场景下的优势性能。通过功能迭代和生态扩展,Karmada 解决了企业在跨集群管理中的核心挑战,Bloomberg 等企业的实践证明,Karmada 能够有效支撑大规模数据平台的弹性与可靠性需求,未来在 AI 训练、边缘计算等场景的拓展值得期待。

▍KubeEdge 赋能多领域、多场景边云协同AI智算

来自华为云云原生团队的KubeEdge社区Maintainer鲍玥,携手社区伙伴,带来4场云原生边缘计算技术演讲,议题涵盖KubeEdge大规模实现、落地案例分享以及社区治理工作等多个方向。在 "KubeEdge 社区新特性解读及多元场景案例" 、"使用混沌工程构建超大规模云原生边缘系统" 、"KubeEdge 深度探索:架构、用例和项目毕业动态" 系列议题中,KubeEdge分享了社区在智慧物流、机器人编排等领域的行业案例,介绍了项目在边缘场景中发挥的统一化管理、边缘自愈、实时性等优势,同时也带来了社区最新的新特性,包括支持批量边缘节点管理,全新DashBoard,子项目Sedna支持HPA等,以及在支持大规模场景的探索实践。

作为 CNCF 首个云原生边缘计算毕业级项目,KubeEdge 的毕业旅程备受关注,在" KubeEdge毕业探索:从零开始构建多元化、协作型开源社区"圆桌中,KubeEdge TSC 等技术专家, 共同向参会者分享总结了 KubeEdge 在社区发展与毕业历程中所做的工作,从技术成熟度、采用率、社区多样化、中立性等多个角度探讨社区健康发展的关键要素,并对 KubeEdge 毕业后的工作进行了规划与展望。

▍Kmesh:内核级流量治理引擎, 高效应对大规模流量应用需求

Kmesh 是集高性能、低开销及安全可靠于一身的内核级云原生流量治理引擎。本次大会上,来自华为云的 Kmesh 社区技术专家徐中虎一行,在 4 场议题演讲中分享,涵盖 Service Mesh 高性能、低底噪、安全性,易用性方面的探讨。本着轻量、易用、应用无侵入的设计原则,Kmesh 使用 eBPF 将 Service Mesh 彻底革命,推出业界极具竞争力的 Sidecarless 方案,在性能和可靠性上遥遥领先于业界相关竞品。

Kmesh 从高性能、低开销技术愿景出发,借助 kfunc,内核原生模式将流量治理能力完全下沉到 Kernel Space。同时,为解决 Service Mesh 重启升级影响用户业务稳定性的问题,Kmesh 用 eBPF prog 和 BPF Map 与 Kmesh Daemon 运行进程分离的方式,实现重启升级不影响业务已有连接,减了 Service Mesh 对业务稳定性的影响。Kmesh 创新性地利用 Linux 内核的 XDP 技术,在网络包进入内核协议栈之前就进行快速处理,极大地降低了时延,提高了吞吐,克服了在处理大规模流量时,用户态鉴权存在的瓶颈,实现了服务间极致的鉴权性能。

▍openGemini:高性能时序数据库,降低企业业务成本

openGemini 是一款高性能时序数据库,主要面向物联网,车联网和运维监控等场景,为用户提供海量时序数据的高效存储和查询。openGemini 目前已经在能源、电力、航空航天、devops、物联网、车联网、矿山、大宗物流等 9 大领域应用落地。本届 KubeCon China,openGemini 正式以 CNCF Sandbox 项目的身份参与。

会上,来自华为云的 openGemini 社区 Maintainer 向宇,向与会者在介绍了openGemini 技术特性与未来规划,并重点介绍了数据多副本及流式计算两个重要新特性,多副本可满足多数业务对数据可靠性的需求,同时社区将流式计算融入内核,简化业务架构,降低业务成本。

智能驱动的新一代AI-Native云原生基础设施

云原生已迈入全面智能化的新阶段,华为云通过AI重构云原生,打造更适合AI应用的基础设施,为用户带来全新的智能化使用体验。

在华为云展区,讲解专家向与会者展示了AI-Native的云原生基础设施,包括 UCS,CCI,CCE Autopilot,CCE Turbo 等多个行业级云原生代表产品,并介绍在 KubeEdge、Volcano、Karmada、Kuasar、openGemini、Kmesh 等业界首创开源项目中的技术创新成果。

作为云原生与 AI 领域的先驱者,华为云凭借多年来的产业实践和技术创新,连续8次蝉联中国容器软件市场份额第一,Omdia 评价产品战略与执行全球第一,打造业界领先的云原生解决方案,为企业数智化转型提供强大动力。

开源生态加速 AI 时代技术革新,驱动行业智能化跃迁。从 Cloud Native 到 AI Native,技术创新助力产业可持续发展,我们期待与您共建繁荣云原生生态,携手全球企业与开发者,共赢产业智能未来。

**【更多华为云云原生干货推荐】**华为云云原生王者之路集训营

华为云云原生王者之路集训营

为帮助广大技术爱好者快速掌握云原生相关技能,华为云云原生团队与华为云学院联合CNCF开源软件大学启动人才培养计划,推出《华为云云原生王者之路集训营》,从云原生基础知识介绍到最佳实践讲解、底层原理和方案架构深度剖析,层层深入,满足不同云原生技术基础和学习目标人群的需求 。本课程还精选数十个企业典型应用场景,作为学员上机实践案例,帮助学员将所学技术快速与企业业务相结合,服务于企业生产。点击免费参加华为云云原生王者之路集训营edu.huaweicloud.com/roadmap/clo... 学习后记得小试牛刀,看看测评效果~ 华为云云原生王者之路-黄金课程测评 华为云云原生王者之路-钻石课程测评 华为云云原生王者之路-王者课程测评

相关推荐
老兵发新帖10 小时前
Kubernetes架构解析
容器·架构·kubernetes
字节跳动开源10 小时前
Gödel Rescheduler:适用于云原生系统的全局最优重调度框架
云原生
努力的小郑12 小时前
《从IaaS到容器化:深度解析云计算三层架构与阿里云ECS+K8s协同实践》
阿里云·云计算
国际云,接待12 小时前
【视频直播出海】阿里云ApsaraVideo Live:从零搭建全球直播平台的“星际航行”指南!
阿里云·云计算·音视频
容器魔方1 天前
Volcano v1.12 正式发布!驱动云原生AI与批量计算向智能高效新阶段演进
云原生·容器·云计算
Johny_Zhao1 天前
CentOS Stream 8 高可用 Kuboard 部署方案
linux·网络·python·网络安全·docker·信息安全·kubernetes·云计算·shell·yum源·系统运维·kuboard
在未来等你1 天前
互联网大厂Java求职面试:云原生架构与微服务设计中的复杂挑战
java·微服务·ai·云原生·秒杀系统·rag·分布式系统
爱瑞瑞1 天前
云原生学习笔记(八) Docker 实战:宿主机与容器的信息交互与共享策略
docker·容器
程序员老乔1 天前
【Dify系列】【一】【安装与部署】【ubuntu22.04安装docker部署dify1.4.2】
运维·docker·容器