TensorRT-LLM中的MoE并行推理

2种并行方式:

moe_tp_size:按照维度切分,每个GPU拥有所有Expert的一部分权重。

moe_ep_size: 按照Expert切分,每个GPU有用一部分Expert的所有权重。

二者可以搭配一起使用。

限制:二者的乘积,必须等于模型并行(不是指moe_tp_size,而是整个模型的tp_size)的卡数。

相关推荐
林多1 天前
【Android】 GPU过度绘制实现原理
android·gpu·性能·实现原理·过度绘制·overdraw
数据与后端架构提升之路4 天前
深度学习性能调优全景指南:数据、计算、显存、通信四大瓶颈的破局之道
深度学习·gpu·性能调优
Eloudy6 天前
华为UB协议与NVIDIA NVLink/NVSwitch在PCIe GPU场景下的技术替代性分析
gpu
木雷坞9 天前
内网模型服务启动链路分层实践
docker·容器·gpu
humors22110 天前
十款顶级跑分与排名软件全解析
电脑·内存·测试·cpu·gpu·笔记本·硬盘
humors22113 天前
硬件(处理器/显卡)大比拼(不定期更新)
电脑·cpu·gpu·显卡·笔记本·处理器·比较
zyk4214 天前
NVlink为什么那么快?你知道PCIe和NVlink的区别吗?
gpu
zyk4215 天前
你的 GPU 为什么在摸鱼?——存储金字塔、带宽瓶颈与 Roofline 模型
gpu
ACCELERATOR_LLC19 天前
【DataWhale组队学习】DIY-LLM Task4 GPU和GPU相关的优化
人工智能·深度学习·大模型·transformer·gpu
飘忽不定的bug24 天前
记录:RK3576 适配开源GPU驱动(panfrost)
linux·gpu·rk3576·panfrost