TensorRT-LLM中的MoE并行推理

2种并行方式:

moe_tp_size:按照维度切分,每个GPU拥有所有Expert的一部分权重。

moe_ep_size: 按照Expert切分,每个GPU有用一部分Expert的所有权重。

二者可以搭配一起使用。

限制:二者的乘积,必须等于模型并行(不是指moe_tp_size,而是整个模型的tp_size)的卡数。

相关推荐
几米哥18 小时前
消费级GPU的AI逆袭:Gemma 3 QAT模型完整部署与应用指南
google·llm·gpu
BW.SU2 天前
单片机 + 图像处理芯片 + TFT彩屏 复选框控件
单片机·嵌入式硬件·gpu·ra8889·ra6809·液晶控制芯片·图形处理芯片
红尘散仙4 天前
七、WebGPU 基础入门——Texture 纹理
前端·rust·gpu
红尘散仙4 天前
八、WebGPU 基础入门——加载图像纹理
前端·rust·gpu
红尘散仙5 天前
六、WebGPU 基础入门——Vertex 缓冲区和 Index 缓冲区
前端·rust·gpu
红尘散仙5 天前
四、WebGPU 基础入门——Uniform 缓冲区与内存对齐
前端·rust·gpu
TYYJ-洪伟6 天前
【Vulkan 入门系列】创建帧缓冲、命令池、命令缓存,和获取图片(六)
音视频·gpu·vulkan·图像渲染
非典型程序猿9 天前
【Vulkan 入门系列】创建交换链、图像视图和渲染通道(四)
gpu·音视频开发
落樱弥城10 天前
Nvidia显卡架构演进
人工智能·ai·gpu·nvidia·gpgpu
非典型程序猿10 天前
【Vulkan 入门系列】创建描述符集布局和图形管线(五)
gpu·音视频开发