TensorRT-LLM中的MoE并行推理

2种并行方式:

moe_tp_size:按照维度切分,每个GPU拥有所有Expert的一部分权重。

moe_ep_size: 按照Expert切分,每个GPU有用一部分Expert的所有权重。

二者可以搭配一起使用。

限制:二者的乘积,必须等于模型并行(不是指moe_tp_size,而是整个模型的tp_size)的卡数。

相关推荐
virtaitech2 天前
云平台一键部署【Tencent-YouTu-Research/Youtu-LLM-2B】具备原生智能体能力
人工智能·深度学习·机器学习·ai·gpu·算力·云平台
hahahahanhanhan4 天前
Tensorflow使用GPU(cuda和cudnn和tensorflow下载)
人工智能·python·tensorflow·gpu
InfraTech6 天前
虚拟GPU MIG原理与实践详解
gpu
scott1985126 天前
智驾芯片算力比较 Horizon J6 VS Nvidia orin
gpu
缘友一世7 天前
精粤X99-TI D4 PLUS大板使用多显卡BIOS设置
bug·gpu·硬件·主板·x99
明洞日记8 天前
【CUDA手册002】CUDA 基础执行模型:写出第一个正确的 Kernel
c++·图像处理·算法·ai·图形渲染·gpu·cuda
明洞日记9 天前
【CUDA手册004】一个典型算子的 CUDA 化完整流程
c++·图像处理·算法·ai·图形渲染·gpu·cuda
抠头专注python环境配置10 天前
2026终极诊断指南:解决Windows PyTorch GPU安装失败,从迷茫到确定
人工智能·pytorch·windows·深度学习·gpu·环境配置·cuda
Hi2024021711 天前
使用星图AI算力平台训练PETRV2-BEV模型
人工智能·自动驾驶·gpu·机器视觉·bev·算力平台
virtaitech12 天前
云平台一键部署【Step-1X-3D】3D生成界的Flux
人工智能·科技·ai·gpu·算力·云平台