摘要
12 月 19 日 -20 日,AICon 大会在北京圆满落地。在这场面向 AI 资深开发者的大会上,GMI Cloud 资深架构师汪小康受邀参加,并进行了主题分享,本文为演讲内容精华整理。
12 月 19 日 - 20 日,备受瞩目的 AICon 全球人工智能开发与应用大会在北京圆满举行。此次大会由极客邦科技旗下 InfoQ 中国主办,聚焦 AI 技术落地与产业创新,汇聚全球顶尖技术领袖、企业决策者与资深开发者,深度探讨大模型应用、算力基建、全球化部署等核心议题,为行业发展提供前沿思路与实践范本。
GMI Cloud 资深架构师汪小康受邀出席,在"出海时代的基础设施构建与模型场景实践"主题分论坛中发表了题为《全球化场景下,基于大规模"跨云异构"算力的 MaaS 平台构建实践》的技术演讲。全面展示了 GMI Cloud 在全球多云算力调度与 MaaS 平台构建上的创新能力与实战成果,以下是演讲内容精华整理:
Part 1
核心洞察:
AI 出海成必然趋势, 算力基建是关键支撑
全球 AI 市场正保持稳步增长,行业年均复合增长率介于 19.20%-27.67% 之间,预计 2034 年市场规模将突破 3.6 万亿美元,这背后是海量 AI 应⽤的爆发式增⻓,尤其是出海应⽤的快速扩张,对算⼒的需求也随之提升。
用户层面,2025 年 9 ⽉,海外 AI 应⽤⽉活⽤户已突破 14 亿,中国市场也超过 4.6 亿。这组数据背后,是 AI 技术在海外市场的⼴泛渗透⸺从欧美成熟市场到新兴经济体,⽤户对 AI 的接受度远超预期,为中国 AI 应⽤出海提供了庞⼤的⽤户基础。更重要的是,⽤户习惯已经养成。调研显示,全球 58% 的受访者会主动使用 AI 工具,31% 为每周甚至每天使用的高频用户,50% 的人在工作、学习场景中使用过 AI,用户使用习惯已全面养成。出海企业⽆需从零进⾏市场教育,这极⼤降低了出海⻔槛,也让推理需求的爆发成为必然。
从市场环境来看,国内市场竞争激烈、增长空间趋缓,而全球市场呈现增长潜力,企业采购预算与个人付费意愿翻倍增长,拉丁美洲等新兴市场增速超 50%,这种市场需求的巨大⽔位差,让出海成为中国 AI 产业释放产能的最佳路径。据预测,到 2035 年中国 AI 产业收⼊将占全球 30.6%,中国企业深度融⼊全球价值链已是必然。

Part 2
应需而生:
Inference Engine 破解 AI 出海算力困境
但机遇背后,挑战同样严峻。36Kr 研究院的调研显示,全球算⼒基础设施布局不⾜是 AI 出海的第⼀⼤挑战。 具体来看,接近 6 成的企业⾯临全球⽤户访问时延⾼的问题以及存在跨区域数据协同效率低的困扰,缺乏弹性算⼒调度能⼒⾼昂的算⼒成本。此外,合规⻛险、⾼端 GPU 短缺、多云管理复杂等问题也不容忽视。 这些挑战集中体现在:单⼀点位算⼒⽆法满⾜跨区域低延时需求;⽤户激增时 GPU 扩容周期⻓;⾼端 GPU 资源稀缺;服务稳定性制约应⽤扩张;还有复杂的合规要求,这些都成为 AI 应⽤出海的拦路⻁。
⽬前,推理技术的发展也是⽇新⽉异。⼀⽅⾯,多节点推理成为主流,P/D 分离、EP 架构让推理吞吐量⼤幅提升,⽐如 DeepSeek-R1 671B 模型 4 个⽉内吞吐量提升 26 倍;另⼀⽅⾯,推理价格持续下降,两年内 GPT-4 级模型的 Token 成本降低 240 倍。这意味着,企业不仅要应对多节点系统的复杂性,还要在成本优化上持续发⼒,端到端的系统调优⾄关重要。

在此背景下,GMI Cloud 推出 Inference Engine 平台。作为 NVIDIA 全球六大云推荐合作伙伴之一,GMI Cloud 能够获取 H200、GB300 等最先进的算力资源,并在全球运营 10 余个算力中心,近期投资 5 亿美元在亚太地区建设万卡规模的 GB300 集群的 AI Factory。Inference Engine 平台覆盖了 语⾔、⾳视频、图像等全类型 AI 模型,跨境 AI 聊天⼯具、海外视频⽣成应⽤,还是多语⾔语⾳交互产品在这个平台上基本上都能找到适配的模型和算⼒⽀撑,实现⼀站式部署。其次,平台提供独占式 H100/H200 节点部署,⽤户可以⼀键选择实例类型,从 单卡推理到多卡任务,可以灵活配置,按⼩时计费,成本可控。从实际部署案例来看,多个版本的 DeepSeek、GPT OSS 模型都已成功上线,实例状态实时可⻅。
在服务可靠性上,Inference Engine 构建了完善的可观测性体系。通过 Tracing 链路追踪和实时性能监控,⽤户可以清晰看到每⼀次推理请求的耗时、状态,P99 延迟等关键指标⼀⽬了然。 为了降低⽤户接⼊⻔槛,平台提供 OpenAI 兼容的端点 URL,⽤户⽆需修改代码就能快速接⼊。同时⽀持灵活的参数配置,⽐如温度、最⼤ Token 数、频率惩罚等,满⾜不同场景的推理需求。简单来说,Inference Engine 部署了⼤量的也就先进的主流模型并提供 api 服务。企业只需要调⽤api 服务即可。对于企业的⾃有模型,平台也提供了模型托管服务,企业不再需要为复杂的基础设施层⽽费⼼费⼒,⼀键部署,全球可达。

Part 3
核心痛点:
全球「高性价比算力资源」获取难、 管理复杂度高
随着 AI 出海浪潮的深化,MaaS 行业出现了一系列新变化,原本的解决方案已难以适配企业的复杂需求。⽬前 gpu 云市场格局不再由传统的⼤型公有云⼚商主导,涌现出了很多的新的 gpu 云⼚商,比如 CoreWeave、Runpod 。然⽽市场多元化带来了新的问题:标准不统⼀。每家云⼚商的技术栈以及接⼊⽅式都不⼀样。这意味着,企业如果同时使⽤多家云⼚商的资源,需要做出针对性的适配开发⼯作。
到 2024 年已经有九成的组织采⽤多云方案,来避免单⼀⼚商锁定,并且优化成本。但是多云方案也增加了很多隐形的成本,以及复杂的采购流配置流程。Flexera 报告显示 2024 年 89% 的组织采用多云策略,67% 的工作负载分布在多个云服务商,却伴随高昂隐性成本:
大型企业年均多云相关成本达 3.48 亿美元,迁移人力成本占 28%,停机损失占 24%,跨云数据传输、配置调试等成本持续攀升,100 亿参数模型迁移成本约 450 万美元;且企业平均需对接 3.4 个云平台,采购审批平均耗时 27 天,配置调试需 14 天,严重影响项目推进效率。
此外,全球算力资源地域失衡明显,加剧了资源管理难度。北美占比 42%、欧洲 18%、中国 15%,中东、拉美、非洲等新兴市场供给严重不足,企业使⽤这些分布不均匀的算⼒会有极大挑战。同时算力利用率普遍偏低,AI 训练场景 GPU 利用率仅 35%,推理场景 62%,数据中心平均 48%,远低于行业良好水平的 85%,核心瓶颈包括 73% 企业采用静态分配导致的资源分配僵化、推理负载 3-8 倍的峰值波动、传统系统 27% 的资源碎片率及硬件兼容差异等。
当前市场环境下,单一厂商的算力供给已难以覆盖企业多样化 AI 需求,而企业在众多 MaaS 平台中进行筛选时面临较高决策成本;采用多云策略虽能分散风险,却导致管理复杂度和总体成本飙升;同时,全球各地部署推理服务需要应对网络延迟、数据合规、资源调度等多重挑战。这一系列问题,催生了对新一代 MaaS 平台的迫切需求。

Part 4
效能跃升:
Inference Engine 2.0 四大核心能力
优化出海算力部署
异构资源统一纳管:BRS 概念简化资源管理
面对 MaaS 市场的深刻变革,Inference Engine 2.0 确立了四大核心能力:异构资源的统一纳管、多云资源调度、全球化部署、高度弹性扩缩容,旨在构建一个真正面向全球的算力调度网络。⾯向分布在全球各地的资源,帮助企业精准找到算⼒和⾼效利⽤算⼒。

全球多云资源调度:分层架构 + 两级调度提升资源适配性
设计 "总控制层 - 区域控制面 - 数据面(BRS)" 的三层架构,搭配 "两级调度" 机制,实现对全球范围内多云异构资源的统一管控与智能调度:
最上层为总控制层,基于中心化部署的 Kubernetes(K8s)集群构建,核心职责涵盖全局资源统筹调度、多集群协同管理、跨区域任务编排等核心能力;
各区域部署区域控制面,同样以 K8s 集群为技术底座,主要承担区域内资源精细化管控、二级调度执行及本地流量智能分发等功能;
最下层为数据面,由 BRS(Backend Resource Slice,后端资源切片)构成。每个 BRS 实例启动后,会自动注册至对应区域控制面,并映射为该集群下的虚拟节点。

而两级调度是 Inference Engine 2.0 的核⼼调度机制。
一级调度部署于总控制层,聚焦全局资源统筹,核心目标是实现任务就近部署与全局负载均衡;二级调度部署于各区域子集群,聚焦区域内资源调度效率,核心目标是实现资源最优匹配,且在调度失败时触发自动重调度。
具体调度流程如下:一级调度接收任务请求后,先解析任务资源需求、收集全局多云资源状态信息,再基于一级调度评估因子进行综合打分,最终筛选出最优目标集群并完成任务下发;二级调度接收任务后,收集区域内资源实时状态信息,基于二级调度评估因子对候选节点进行打分;若目标节点资源充足,直接完成任务与资源的绑定;若资源不足,则自动触发弹性扩容机制,保障调度任务高效完成。
三层架构与两级调度机制,共同构成该平台的核心设计理念。

总控制层是整个系统的核心,其组成架构可详细拆解如下:
对外统一 API 接入层:承担与外部系统的 API 交互职责,提供标准化的接口接入能力;
Console 控制器:作为系统业务逻辑的核心实现载体,负责业务规则的解析与执行;
异步分布式任务队列:专注于异步任务的接收、分发与处理,保障非实时任务的高效流转;
多集群资源编排层:核心组件包含集群注册中心与资源分发器,该层基于开源 Karmada 构建,并在其基础上自定义扩展了大量 CRD(CustomResourceDefinition,自定义资源定义),以此增强 Karmada 的多集群管理与资源编排能力。
此外,总控制层内置一级调度器,可基于多维度指标完成任务的一级调度决策。
上述组件协同配合,共同构成总控制层的完整能力体系。

区域控制面的核心支撑服务为 Agent,该服务承担着多重关键职责:对内负责虚拟节点的全生命周期管理,同时完成各类指标的采集与聚合,生成标准化指标数据供二级调度模块调用;对外则定期向总控制面上报区域子集群的指标数据与运行状态,为总控制面构建近乎实时的子集群全局视图提供核心数据支撑,此外,当区域子集群内二级调度任务执行失败时,Agent 还会负责将任务回传至总控制面,触发全局重新调度流程以保障任务执行连续性。

区域控制面需实现的另一项关键能力为高度弹性扩缩容,该能力通过二级调度与 HPA(Horizontal Pod Autoscaler)的协同机制落地实现。其中,二级调度通过过滤与打分两个核心阶段完成区域内资源的最优匹配与分配,HPA 则基于集群负载实时变化动态调整资源规模,两者的协同运作既保证了资源的高效利用,又实现了对业务负载变化的快速响应。

区域控制面还具备一项关键特性 ------ 流量管理。考虑到总控制层采用中心化部署,而服务的用户群体覆盖全球,若流量经总控制层转发,将导致延迟过高且稳定性无法保障。因此,对应的流量转发方案设计为仅通过区域控制面完成转发:各区域控制面均部署自研网关(Gateway)服务,该服务负责承接外部各类流量,随后通过多种路由算法精准定位后端 BRS,再借助 QUIC 协议将流量转发至 BRS 上的模型负载,最终完成请求的处理闭环。

接下来聚焦三层架构最底层的数据面,即 BRS 内部的详细技术实现。Kubernetes(K8s)数据面的核心服务为 Kubelet,该组件负责与 API Server 交互,在物理节点上完成容器启停、CNI 插件初始化等一系列复杂操作。BRS 借鉴 Kubelet 的架构设计,在每个 BRS 实例上部署 BRSlet 组件,同时对其功能实现进行大幅简化。BRSlet 的核心能力聚焦于 Pod 在 BRS 上的生命周期管理,其运行机制参考当前主流容器运行时技术,配套自研 Shim 服务。该 Shim 服务内置面向异构资源的多类型负载运行时环境,BRSlet 通过调用 Shim 服务完成 Pod 在不同 BRS 实例上的部署与运行,以此实现 BRSlet 与业务负载之间的进程隔离,达成组件间的解耦设计。

区域控制面与 BRS 层的交互依赖两条独立通信链路,分别为控制链路与请求链路。考虑到系统面向跨云场景的公网通信需求,为保障复杂网络环境下的通信稳定性,该交互链路采用 QUIC 协议承载数据传输 ------ 该协议的传输特性高度适配混合云公网场景的通信需求,同时系统额外叠加多重通信保障机制,进一步提升链路可靠性。其中,控制链路承担区域控制面虚拟节点服务与 BRSlet 之间的通信任务,主要用于传输创建 Pod 等系统内部指令;请求链路则负责区域控制面 Gateway 服务与部署在 BRS 上的 Proxy 组件之间的数据交互,核心功能是转发外部推理请求与传输业务数据。两条链路独立运行、互不干扰,从通信层面强化了系统整体稳定性。

高度弹性扩缩容:协同调度提升资源利用率
在两级调度机制之外,BRS 扩缩容机制同样是系统的核心能力模块。该机制的调度执行聚焦于子集群级别,依托多维度决策策略完成扩缩容触发与执行逻辑的判定。扩缩容的完整逻辑可通过时间线进行阶段拆解,此处不展开赘述。该机制具备完善的智能决策与优雅处理能力,能够在保障服务质量的前提下,实现企业算力成本的最优控制。
为支撑多机多卡任务的运行需求,技术方案为 BRS 引入 Group 分组概念。具体而言,处于同一网络环境下的多个 BRS 会被划入同一个 Group。例如,IDC 集群内部启动的 3 个搭载 IB 网络的 BRS,将自动组成一个具备 IB 网络能力的 Group,此类 Group 可承接 PD 分离、SFT 等需要多机多卡协同的任务。上层调度系统可基于不同 Group 的网络属性与资源特征,制定差异化的调度策略。

全球化部署 + 高可靠保障:兼顾低延时与安全稳定
模型部署任务由总控制层的 API 服务发起创建,经两级调度机制逐层分发后,最终被调度至目标 BRS 实例;随后由 BRSlet 完成 Pod 的解析与加载,最终实现模型在 BRS 上的运行,整个流程需经由多模块服务的协同流转。
附表为模型部署全流程的时间消耗拆解,各阶段耗时均为参考值,具体时长受资源状态、网络环境等多重因素影响。在底层资源充足,且镜像与模型文件已完成预热的前提下,模型部署可实现秒级启动。
最后对系统的可观测性体系展开说明,该体系是保障系统稳定运行的核心支撑。当前系统已构建起完善的监控告警体系,可实时感知并反馈系统运行状态;配套的安全防护机制可实现数据与服务的双重安全保障;精细化的权限模型能够支撑粒度可控的访问管控;同时,平台会采集多维度运行指标,为上层业务的分析与决策提供数据支撑。

想亲手体验 IE 2.0 的强大算力?赶紧扫描二维码,输入兑换码 "IE2025NOW",就能免费瓜分 70 亿体验 Token~

关于 GMI Cloud
由 Google X 的 AI 专家与硅谷精英共同参与创立的 GMI Cloud 是一家领先的 AI Native Cloud 服务商,是全球六大 Reference Platform NVIDIA Cloud Partner 之一,拥有遍布全球的数据中心,为企业 AI 应用提供最新、最优的 GPU 云服务,为全球新创公司、研究机构和大型企业提供稳定安全、高效经济的 AI 云服务解决方案。
GMI Cloud 凭借高稳定性的技术架构、强大的GPU供应链以及令人瞩目的 GPU 产品阵容(如能够精准平衡 AI 成本与效率的 H200、具有卓越性能的 B200 以及未来所有全新上线的高性能芯片),确保企业客户在高度数据安全与计算效能的基础上,高效低本地完成 AI 落地。此外,通过自研"Cluster Engine"、"Inference Engine"两大平台,完成从算力原子化供给到业务级智算服务的全栈跃迁,全力构建下一代智能算力基座。
作为推动通用人工智能(AGI)未来发展的重要力量,GMI Cloud 持续在 AI 基础设施领域引领创新。选择 GMI Cloud,您不仅是选择了先进的 GPU 云服务,更是选择了一个全方位的 AI 基础设施合作伙伴。
如果您想要了解有关 GMI Cloud 的信息
请关注我们并建立联系