云原生研发突破,国际顶会认可!

近日,由天翼云与中国电信云计算研究院联合完成的论文《gShare: Efficient GPU Sharing with Aggressive Scheduling in Multi-tenant FaaS platform》,获计算机系统领域国际顶级会议ASPLOS 2026长文收录。该研究面向AI智能应用场景,提出了一套针对GPU FaaS云函数的高效资源共享与调度机制,标志着天翼云在Serverless GPU的细粒度算力供给与多租户资源优化领域实现重要突破。

ASPLOS(International Conference on Architectural Support for Programming Languages and Operating Systems)是国际计算机体系结构四大旗舰会议之一,获中国计算机学会(CCF)最高推荐级别A类认证,在全球学术界与产业界享有极高声誉。本届ASPLOS夏季评审轮次共收到840篇投稿,仅录用89篇,录取率低至10%,论文质量与创新性要求极为严苛。此次联合研究成果成功入选,彰显了中国电信天翼云在**"AI+云"融合创新**上的前瞻布局与自主攻坚能力。

gShare GPU动态共享技术

破解Serverless场景GPU供给难题

随着大语言模型、AI智能体等应用加速落地,算力需求正呈现"泛在化、动态化、碎片化"新特征。传统云计算GPU资源供给模型普遍存在资源分配粒度粗、弹性不足、租户成本高等痛点,难以适应中小模型推理、边缘智能等场景对高性价比、灵活弹性的GPU算力需求。

天翼云公有云事业部与基础架构事业部,携手中国电信云计算研究院,基于目前流行的Serverless函数式编程范式,共同开展了面向AI智能应用的高效GPU云函数课题研究,并基于自研evGPU技术研发出面向多租户的低成本GPU函数共享调度系统gShare。该系统以微虚拟机作为安全隔离环境与函数运行载体,通过三大核心技术创新实现GPU资源的"时空动态"高效利用

01基于vGPU的细粒度算力分配------精确匹配用户资源需求

该系统底层设计采用近乎零开销的自研虚拟化技术,实现对VM到物理GPU设备间任意粒度的算力切片供给,租户函数实例可根据自身业务实际消耗按需申请vGPU资源,彻底告别传统GPU整卡独占的粗放模式,降低资源浪费。

02基于超售的资源定价与调度策略------释放用户函数闲置算力 该系统资源创新性地采用了GPU与CPU和内存资源管理的解耦设计,通过vGPU热插拔和快速显存交换技术,允许函数到GPU切片间映射关系的运行时动态调整,同时结合deadline感知的延迟调度设计以实现资源超售。租户可根据需要选择不同共享粒度并享受相应价格折扣,从而实现闲置GPU算力的高效回收利用和成本-性能最优平衡

03跨资源池的统一调度与管理架构------支撑泛在智能业务场景

该系统可适配包括TensorFlow Serving, PyTorch, vLLM, and SGLang在内的主流AI推理框架,其设计也天然兼容跨异构资源池的统一调度与管理架构,除可部署在传统的数据中心集中式GPU资源池之外,还能够部署在分布广泛、具有零散和碎片化资源的边缘分布式算力节点,为构建中国电信**"中心-边缘"协同**的分层多级泛在算力供给体系提供核心技术支撑。

基于vGPU重映射的动态共享GPU云函数设计

测试结果表明,gShare相关成果可显著提升Serverless平台内部的GPU资源利用率,降低企业采购与运营成本。同时,云租户可根据实际GPU共享力度享受对应的价格折扣,真正实现"用得省、用得好"。

目前,gShare相关研究成果已在天翼云函数计算产品中实现落地部署。依托中国电信的泛在云网基础设施与息壤算力互联调度平台,该技术可进一步拓展至边缘大模型推理、云游戏等边缘计算场景,实现从中心到边缘的全场景算力灵活供给。未来,天翼云将持续深化泛在算力与智能调度等领域的探索,通过提供无处不在、弹性高效、成本可控的AI算力,推动智能算力走向普惠,赋能各行业智能化转型。

论文信息:Yanan Yang, Zhengxiong Jiang, Meiqi Zhu, Hongqiang Xu, Yujun Wang, Liang Li, Jiansong Zhang, Jie Wu. gShare: Efficient GPU Sharing with Aggressive Scheduling in Multi-tenant FaaS platform. International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS) 2026. Pittsburgh, USA. (Accepted)

相关推荐
翼龙云_cloud10 小时前
阿里云渠道商:如何手动一键扩缩容ECS实例?
运维·服务器·阿里云·云计算
AKAMAI11 小时前
基准测试:Akamai云上的NVIDIA RTX Pro 6000 Blackwell
人工智能·云计算·测试
China_Yanhy15 小时前
AWS EKS三种类别,如何选择
云计算·aws
xybDIY16 小时前
亚马逊云 Organizations 组织 Link 账号关联与解绑自动化解决方案
运维·自动化·云计算·aws
倪某某16 小时前
阿里云无影GPU部署WAN2.2模型
阿里云·云计算
倪某某16 小时前
阿里云ECS GPU部署WAN2.2
人工智能·阿里云·云计算
小白考证进阶中19 小时前
阿里云ACA认证常见问题答疑
阿里云·大模型·云计算·阿里云aca证书·阿里云aca·aca认证·入门证书
可爱又迷人的反派角色“yang”19 小时前
k8s(四)
linux·网络·云原生·容器·kubernetes·云计算
可爱又迷人的反派角色“yang”20 小时前
k8s(二)
linux·运维·docker·云原生·容器·kubernetes·云计算
翼龙云_cloud21 小时前
阿里云渠道商:阿里云弹性伸缩有哪几种
服务器·阿里云·云计算