TensorRT-LLM中的MoE并行推理

2种并行方式:

moe_tp_size:按照维度切分,每个GPU拥有所有Expert的一部分权重。

moe_ep_size: 按照Expert切分,每个GPU有用一部分Expert的所有权重。

二者可以搭配一起使用。

限制:二者的乘积,必须等于模型并行(不是指moe_tp_size,而是整个模型的tp_size)的卡数。

相关推荐
扫地的小何尚3 天前
NVIDIA工业设施数字孪生中的机器人模拟
android·java·c++·链表·语言模型·机器人·gpu
ak啊5 天前
PyTorch框架-Python GPU编程
pytorch·python·gpu
扫地的小何尚7 天前
NVIDIA cuOpt:GPU加速优化AI微服务详解
人工智能·算法·微服务·ai·架构·gpu
量子位10 天前
蚂蚁国产 GPU 训练大模型细节曝光!Ling 模型研发负责人回应:关于我们抠 FLOPS 的一些点滴
人工智能·gpu
HyperAI超神经11 天前
【TVM教程】使用 TVMC Micro 执行微模型
人工智能·python·深度学习·学习·教程·gpu·tvm
扫地的小何尚11 天前
NVIDIA TensorRT 深度学习推理加速引擎详解
c++·人工智能·深度学习·gpu·nvidia·cuda
哦豁灬14 天前
CUDA 学习(1)——GPU 架构
学习·架构·gpu
小白跃升坊15 天前
Ubuntu安装GPU驱动+CUDA+cuDNN的安装方法
ai·大语言模型·it运维·gpu
红尘散仙18 天前
三、WebGPU 基础入门——绘制三角型
rust·typescript·gpu
web像素之境19 天前
webgl程序与GPU渲染管线硬件的对应(详细版)
webgl·gpu