TensorRT-LLM中的MoE并行推理

2种并行方式:

moe_tp_size:按照维度切分,每个GPU拥有所有Expert的一部分权重。

moe_ep_size: 按照Expert切分,每个GPU有用一部分Expert的所有权重。

二者可以搭配一起使用。

限制:二者的乘积,必须等于模型并行(不是指moe_tp_size,而是整个模型的tp_size)的卡数。

相关推荐
扫地的小何尚2 天前
NVIDIA Dynamo:数据中心规模的分布式推理服务框架深度解析
人工智能·分布式·microsoft·链表·语言模型·gpu
探索云原生3 天前
开源 vGPU 方案:HAMi,实现细粒度 GPU 切分
ai·云原生·kubernetes·gpu
r0ysue_4 天前
02.上帝之心算法用GPU计算提速50倍
算法·gpu
爱串门的小马驹7 天前
VScode编译调试debug,gpu的cuda程序,Nsight
vscode·gpu·cuda
摩尔线程15 天前
推测解码算法在 MTT GPU 的应用实践
算法·语言模型·大模型·gpu算力·gpu·摩尔线程
weixin_4284984923 天前
Thrust库中的Gather和Scatter操作
gpu
倔强的石头10625 天前
大模型微调实战:基于GpuGeek平台的低成本高效训练方案
ai·大模型·gpu
探索云原生1 个月前
一文搞懂 GPU 共享方案: NVIDIA Time Slicing
ai·云原生·kubernetes·gpu
几米哥1 个月前
消费级GPU的AI逆袭:Gemma 3 QAT模型完整部署与应用指南
google·llm·gpu
BW.SU1 个月前
单片机 + 图像处理芯片 + TFT彩屏 复选框控件
单片机·嵌入式硬件·gpu·ra8889·ra6809·液晶控制芯片·图形处理芯片