攻克大模型训练网络瓶颈,天翼云论文获ACM ICS顶会收录!

近日,由天翼云公有云事业部联合基础架构事业部所撰写的论文《CTCCL: Cost-Efficient Joint Device-Network Load Balancing for LLM Training in RoCE-based Intelligent Computing Network》被第39届ACM International Conference on Supercomputing 2025 (简称ICS)收录。这一成果不仅标志着天翼云在智算网络领域的技术突破获国际学术权威认可,更为天翼云智算集群、大模型训练平台等核心产品注入硬核技术支撑,推动AI算力效率与成本控制实现双重升级。

作为高性能计算领域的顶级盛会,ICS由美国计算机学会(ACM)主办,是中国计算机学会(CCF)推荐的国际重要会议,吸引了全球相关领域众多顶尖学者与产业专家参与。其论文接收率仅约23.32%,所有投稿均需经过严格的同行双盲评审,收录成果代表着当前领域的前沿创新方向。此次天翼云自研集合通信库相关研究的成功入选,是对天翼云技术创新能力的国际认可,彰显了中国云服务商在智算核心技术领域的全球竞争力。

CTCCL+DNLB端网协同方案,破解RoCE网络大模型训练痛点

随着大模型训练进入千亿参数时代,RoCE网络作为智算集群的关键基础设施,正面临"高负载下链路拥堵、大规模部署成本高企"的行业共性难题:现有负载均衡方案依赖自研网卡、交换机等定制硬件,推高中小集群部署门槛;适配性不足,在复杂组网或多任务场景下易出现故障断联,严重影响训练效率。

针对这些痛点,天翼云在论文中创新提出"Joint Device-Network Load Balancing (DNLB)端网协同负载均衡方案",并通过自研集合通信库CTCCL实现端到端落地,构建起"高性能、低成本、强兼容"的智算通信支撑体系。

基于CTCCL集合通信库的端网协同负载均衡方案

01 端网协同,双维度破解流量拥堵

**端侧精准控流:**CTCCL创新推出UDP源端口分段算法,基于不同节点RDMA网卡IP地址,为每个队列对(QP)分配唯一连续的UDP源端口,从源头降低哈希冲突,实现流量的"有序分流"。同时,CTCCL内置故障感知机制,可自动将故障链路流量重分配至正常QP,无需人工干预,保障训练不中断。

**网侧简单配置:**仅需在Leaf交换机配置简单的ACL+PBR规则,即可将不同端口段流量均匀映射至不同上行链路,以"无额外硬件投入"的低成本方式实现负载均衡,实现流量的"精准路由"。

02 强兼容性适配多元场景

该方案无需依赖特定硬件,支持单轨/多轨GPU集群,对并发任务数量无限制,可灵活适配从中小集群到大规模智算中心的多样场景,大幅降低技术落地门槛。

03 实测验证:效率与稳定性双重突破

在真实智算集群测试中,基于CTCCL的DNLB方案性能优势显著。相比传统NCCL和ECMP方案,AllReduce峰值带宽从16.1GB/s提升至22.6GB/s,集合通信效率提升40%,大模型训练效率提升7%,端口负载方差从92.22降至0.06,彻底解决了链路拥堵问题。即便遭遇网络故障,流量也可快速重分配,负载均衡度仍保持在95%以上,确保训练全程无卡顿。

凭借硬核技术突破,天翼云在提升AI算力效率的同时显著降低TCO,实现从"解决痛点"到"加速创新"的跨越。未来,天翼云将持续加强关键核心技术自主攻关,优化智能计算的效率与成本,构建更稳定、高效、普惠的智算基础设施,赋能千行百业数字化转型,为数字经济高质量发展注入澎湃动能。

相关推荐
AI绘画哇哒哒16 小时前
【值得收藏】手把手教你用PyTorch构建Transformer英汉翻译系统,从训练到推理
人工智能·pytorch·ai·语言模型·程序员·大模型·transformer
CoderJia程序员甲18 小时前
GitHub 热榜项目 - 日榜(2025-09-04)
ai·开源·大模型·github·ai教程
爱喝白开水a18 小时前
从零开始学无监督学习:图像混合与标签平滑技术详解,收藏不走丢
人工智能·深度学习·学习·ai·大模型·编程·ai大模型
喜欢吃豆21 小时前
LangGraph 深度解析(三):构建可观测、交互式 AI 智能体的流式架构权威指南
人工智能·python·算法·架构·大模型
戮戮1 天前
MCP over SSE 通信过程详解:双通道架构下的高效对话
架构·大模型·mcp·大模型插件
北京地铁1号线1 天前
ReACT Agent概述
大模型·agent
AIGC安琪2 天前
字节跳动把AI大模型入门知识点整理成手册了,高清PDF开放下载
人工智能·学习·ai·语言模型·大模型·llm·ai大模型
ai绘画-安安妮2 天前
AI工程师必看!GitHub上10个高价值LLM开源项目,建议立即收藏
人工智能·学习·程序员·开源·大模型·github·转行