TensorRT-LLM中的MoE并行推理

2种并行方式:

moe_tp_size:按照维度切分,每个GPU拥有所有Expert的一部分权重。

moe_ep_size: 按照Expert切分,每个GPU有用一部分Expert的所有权重。

二者可以搭配一起使用。

限制:二者的乘积,必须等于模型并行(不是指moe_tp_size,而是整个模型的tp_size)的卡数。

相关推荐
黑暗森林观察者15 小时前
AMD 送了块顶级 GPU 给黑客,他能打穿英伟达 20 年的软件帝国吗?
gpu
派勤电子2 天前
2026 支持 FPGA 工控机 AI 加速应用场景详解
gpu·fpga·npu·工控机·ai工控机·fpga工控机·工业级工控机
archi-dreamer5 天前
SlotIndex机制--以AMDGPU为例
gpu·llvm·编译器与工具链
archi-dreamer5 天前
LiveInterval分析–以AMDGPU为例
gpu·llvm·编译器与工具链
人月神话-Lee6 天前
【图像处理】Core Image 与 GPU 渲染管线——让滤镜飞起来
图像处理·人工智能·ios·chatgpt·ai编程·swift·gpu
AKAMAI8 天前
针对 Akamai Cloud 上的 NVIDIA RTX Pro 6000 Blackwell 进行基准测试
云计算·gpu
caodongwang8 天前
GPU Direct RDMA调研
gpu·rdma·gdr
archi-dreamer10 天前
AMDGPU后端RegMask使用介绍
gpu·llvm·编译器与工具链
fhqlongteng11 天前
RK3576上electron调用GPU的功能设置方法
前端·javascript·electron·gpu·rk3576
Dfreedom.13 天前
算子融合:从硬件本质到性能飞跃的深度学习优化艺术
人工智能·深度学习·gpu·gpu加速·模型加速·算子融合·模型计算