TensorRT-LLM中的MoE并行推理

2种并行方式:

moe_tp_size:按照维度切分,每个GPU拥有所有Expert的一部分权重。

moe_ep_size: 按照Expert切分,每个GPU有用一部分Expert的所有权重。

二者可以搭配一起使用。

限制:二者的乘积,必须等于模型并行(不是指moe_tp_size,而是整个模型的tp_size)的卡数。

相关推荐
I_belong_to_jesus2 天前
tiny-gpu入门4: ALU模块分析
gpu算力·gpu
算家计算7 天前
推理成本吞噬AI未来,云计算如何平衡速度与成本的难题?
人工智能·云计算·gpu
扫地的小何尚9 天前
AI创新的火花:NVIDIA DGX Spark开箱与深度解析
大数据·人工智能·spark·llm·gpu·nvidia·dgx
扫地的小何尚10 天前
一小时内使用NVIDIA Nemotron创建你自己的Bash计算机使用智能体
开发语言·人工智能·chrome·bash·gpu·nvidia
胡耀超10 天前
5、服务器互连技术(小白入门版)
服务器·网络·ai·网络拓扑·gpu·pcie·1024程序员节
七宝大爷11 天前
NVIDIA Blackwell Ultra GB300深度解析:AI芯片性能的新巅峰
人工智能·gpu·gb300
AAA小肥杨13 天前
基于k8s的Python的分布式深度学习训练平台搭建简单实践
人工智能·分布式·python·ai·kubernetes·gpu
爱听歌的周童鞋15 天前
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 5: GPUs
llm·gpu·flashattention·cs336·tiling
文火冰糖的硅基工坊16 天前
[创业之路-702]:“第三次”与“第四次工业革命”的范式跃迁
大数据·人工智能·科技·嵌入式硬件·架构·嵌入式·gpu
文火冰糖的硅基工坊16 天前
[嵌入式系统-136]:主流AIOT智能体软件技术栈
嵌入式硬件·架构·嵌入式·cpu·gpu