攻克大模型训练网络瓶颈,天翼云论文获ACM ICS顶会收录!

近日,由天翼云公有云事业部联合基础架构事业部所撰写的论文《CTCCL: Cost-Efficient Joint Device-Network Load Balancing for LLM Training in RoCE-based Intelligent Computing Network》被第39届ACM International Conference on Supercomputing 2025 (简称ICS)收录。这一成果不仅标志着天翼云在智算网络领域的技术突破获国际学术权威认可,更为天翼云智算集群、大模型训练平台等核心产品注入硬核技术支撑,推动AI算力效率与成本控制实现双重升级。

作为高性能计算领域的顶级盛会,ICS由美国计算机学会(ACM)主办,是中国计算机学会(CCF)推荐的国际重要会议,吸引了全球相关领域众多顶尖学者与产业专家参与。其论文接收率仅约23.32%,所有投稿均需经过严格的同行双盲评审,收录成果代表着当前领域的前沿创新方向。此次天翼云自研集合通信库相关研究的成功入选,是对天翼云技术创新能力的国际认可,彰显了中国云服务商在智算核心技术领域的全球竞争力。

CTCCL+DNLB端网协同方案,破解RoCE网络大模型训练痛点

随着大模型训练进入千亿参数时代,RoCE网络作为智算集群的关键基础设施,正面临"高负载下链路拥堵、大规模部署成本高企"的行业共性难题:现有负载均衡方案依赖自研网卡、交换机等定制硬件,推高中小集群部署门槛;适配性不足,在复杂组网或多任务场景下易出现故障断联,严重影响训练效率。

针对这些痛点,天翼云在论文中创新提出"Joint Device-Network Load Balancing (DNLB)端网协同负载均衡方案",并通过自研集合通信库CTCCL实现端到端落地,构建起"高性能、低成本、强兼容"的智算通信支撑体系。

基于CTCCL集合通信库的端网协同负载均衡方案

01 端网协同,双维度破解流量拥堵

**端侧精准控流:**CTCCL创新推出UDP源端口分段算法,基于不同节点RDMA网卡IP地址,为每个队列对(QP)分配唯一连续的UDP源端口,从源头降低哈希冲突,实现流量的"有序分流"。同时,CTCCL内置故障感知机制,可自动将故障链路流量重分配至正常QP,无需人工干预,保障训练不中断。

**网侧简单配置:**仅需在Leaf交换机配置简单的ACL+PBR规则,即可将不同端口段流量均匀映射至不同上行链路,以"无额外硬件投入"的低成本方式实现负载均衡,实现流量的"精准路由"。

02 强兼容性适配多元场景

该方案无需依赖特定硬件,支持单轨/多轨GPU集群,对并发任务数量无限制,可灵活适配从中小集群到大规模智算中心的多样场景,大幅降低技术落地门槛。

03 实测验证:效率与稳定性双重突破

在真实智算集群测试中,基于CTCCL的DNLB方案性能优势显著。相比传统NCCL和ECMP方案,AllReduce峰值带宽从16.1GB/s提升至22.6GB/s,集合通信效率提升40%,大模型训练效率提升7%,端口负载方差从92.22降至0.06,彻底解决了链路拥堵问题。即便遭遇网络故障,流量也可快速重分配,负载均衡度仍保持在95%以上,确保训练全程无卡顿。

凭借硬核技术突破,天翼云在提升AI算力效率的同时显著降低TCO,实现从"解决痛点"到"加速创新"的跨越。未来,天翼云将持续加强关键核心技术自主攻关,优化智能计算的效率与成本,构建更稳定、高效、普惠的智算基础设施,赋能千行百业数字化转型,为数字经济高质量发展注入澎湃动能。

相关推荐
数据堂官方账号2 小时前
版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域
人工智能·计算机视觉·大模型·数据集·语音识别·语音合成·多模态大模型
人工智能培训6 小时前
Transformer-位置编码(Position Embedding)
人工智能·深度学习·大模型·transformer·embedding·vision
Lethehong6 小时前
DeepSeek-V3.1-Terminus:蓝耘API+CherryStudio实测国产最新开源模型,推理能力竟让我后背发凉
人工智能·大模型·deepseek·蓝耘元生代·蓝耘maas·ai ping
居7然8 小时前
如何高效微调大模型?LLama-Factory一站式解决方案全解析
人工智能·大模型·llama·大模型训练·vllm
GPUStack9 小时前
昇腾多机推理极速上手:10倍简化的 DeepSeek R1 超大规模模型部署
大模型·llm·昇腾·npu·分布式推理
珊珊而川13 小时前
ReAct与PlanReAct的定义及区别
大模型·agent
有点不太正常1 天前
FlippedRAG——论文阅读
论文阅读·安全·大模型·rag
一颗小树x1 天前
【机器人】CogNav 目标导航 | 认知过程建模 | LLM大模型
机器人·大模型·cognav·目标导航·认知过程建模
胡斌附体1 天前
docker离线部署gpt-oss-20b流程,从下载到安装再到可以使用
gpt·docker·容器·大模型·部署·记录·离线
xixixi777771 天前
LangChain(一个用于构建大语言模型(LLM)应用程序的开源框架)
人工智能·深度学习·机器学习·langchain·大模型·大模型框架