阿里云国际站GPU:什么是GPU容器共享技术cGPU?实例命名规则是怎么样的?

目录

为什么选择cGPU

cGPU架构图

命名规则

GPU命名示例


TG:@yunlaoda360

GPU容器共享技术cGPU是阿里云基于内核虚拟GPU隔离的容器共享技术。即多个容器共享一张GPU卡,从而实现业务的安全隔离,提高GPU硬件资源的利用率并降低使用成本。

为什么选择cGPU

  • 兼容性好

    不仅适配标准的Docker和Containerd工作方式,而且还无缝兼容Kubernetes(K8s)

    工作方式。

  • 操作简单

    无需重编译AI应用,运行时无需替换CUDA库。

  • 资源灵活划分

    物理GPU的资源可以进行任意划分。例如,GPU显存动态划分,支持M级划分、GPU利用率动态划分,算力支持最小2%粒度的划分。

  • GPU实例规格无限制

    适用于GPU裸金属实例,虚拟化实例,vGPU实例等各种GPU实例。

  • 应用场景丰富

    支持在离线混部业务(即在线业务和离线业务)、支持CUDA AI和渲染应用场景。

  • 功能强大

    具备高优先级的抢占功能和较高的可运维能力,支持热升级、支持多卡划分功能。

cGPU架构图

GPU容器

共享技术cGPU的架构图如下所示:

为了提高GPU硬件资源的利用率,需要在单张显卡上运行多个容器,并在多个容器间隔离GPU应用。

cGPU通过自研的内核驱动为容器提供虚拟的GPU设备,在保证性能的前提下隔离显存和算力,为充分利用GPU硬件资源进行训练和推理提供有效保障。您可以通过命令方便地配置容器内的虚拟GPU设备。

命名规则

阿里云云服务器ECS提供了多种实例规格族,一种实例规格族又包括多个实例规格。其中,实例规格族名称格式为ecs.<规格族>,实例规格名称为ecs.<规格族>.<规格大小>。

实例具体命名含义如下所示**:**

  • ecs:云服务器ECS的产品代号。

  • <规格族>:由规格族主体+规格族后缀组成。

  • <规格大小>:由smalllarge<nx>large组成,表示vCPU核数。small表示1 vCPU,large表示2 vCPU,xlarge表示4 vCPU。<n>中的n越大,表示vCPU核数越多,如2xlarge代表2 * 4 = 8 vCPU,3xlarge代表3 * 4 = 12 vCPU等等,以此类推。

实例规格族(异构计算规格族、弹性裸金属服务器以及超级计算集群)的组成部分如下:

例如,ecs.ebmgn7ix.32xlarge为搭载NVIDIA GPU卡的GPU计算型弹性裸金属服务器实例规格族中的一个实例规格,配备增强型AMD CPU,拥有32 * 4 = 128 vCPU,7表示采用Ampere架构,GPU类型为A10且GPU显存为24 GB。

规格的命名主要在于规格族的差异,下方表格详细介绍了规格族的组成部分。

GPU命名示例

本示例以GPU计算型和GPU虚拟化型实例规格族为例,展示GPU实例规格的命名含义。

  • GPU计算型(gn/ebm/scc系列)

    • 示例1:ecs.sccgn6.24xlarge表示超级计算集群sccgn6中的一个实例规格,拥有96个vCPU核(即24*4核=96核)。

    • 示例2:ecs.ebmgn7e.32xlarge表示GPU计算型弹性裸金属服务器实例规格族ebmgn7e中的一个实例规格,其采用Ampere架构,拥有128个vCPU核(即32*4核=128核)。

  • GPU虚拟化型(vgn/sgn系列)

    示例:ecs.vgn6i-m4.xlarge表示采用NVIDIA GRID vGPU加速的独享型vgn6i规格族的一个实例规格,其采用Volta/Turing架构,拥有4个vCPU核的NVIDIA T4 GPU。

相关推荐
江公望7 小时前
Ubuntu htop命令,10分钟讲清楚
linux·服务器
哎呦,帅小伙哦7 小时前
Linux 时间:从原子钟到 clock_gettime 的每一面
linux·运维·服务器
张小姐的猫8 小时前
【Linux】多线程 —— 线程互斥
linux·运维·服务器·c++
YuanDaima20488 小时前
Linux 进阶运维与 AI 环境实战:进程管理、网络排错与 GPU 监控
linux·运维·服务器·网络·人工智能
lolo大魔王10 小时前
Linux 数据文件处理实战:排序、搜索、压缩、归档一站式详解
linux·运维·服务器
1892280486110 小时前
NY382固态MT29F32T08GSLBHL8-24QM:B
大数据·服务器·人工智能·科技·缓存
xhbh66610 小时前
网关端口映射和路由器端口转发有什么区别?配置要点全解析
运维·服务器·网络·智能路由器·端口映射·映射·无痕网关
STDD11 小时前
Soulmask《灵魂面具》 专用服务器搭建教程
运维·服务器·github
半壶清水11 小时前
用P4 Tutorial、BMv2 和 Mininet‌解析网络第一集------模拟环境搭建
运维·服务器·网络·网络协议·tcp/ip
.YYY11 小时前
RHCE--Linux循环执行的例行性任务:crontab从入门到精通
linux·运维·服务器