技术栈

TensorRT-LLM中的MoE并行推理

smartcat20102025-01-09 12:31

2种并行方式:

moe_tp_size:按照维度切分,每个GPU拥有所有Expert的一部分权重。

moe_ep_size: 按照Expert切分,每个GPU有用一部分Expert的所有权重。

二者可以搭配一起使用。

限制:二者的乘积,必须等于模型并行(不是指moe_tp_size,而是整个模型的tp_size)的卡数。

上一篇:【leetcode100】二叉树的直径
下一篇:HTML课堂之搜索工具箱/讲师duluo
相关推荐
Eloudy
2 天前
cuDNN 的 IMPLICIT_GEMM 算法
算法·gpu·gemm
YoungHong1992
6 天前
如何在 Android Framework层面控制高通(Qualcomm)芯片的 CPU 和 GPU。
android·cpu·gpu·芯片·高通
探索云原生
6 天前
开源 vGPU 方案 HAMi 原理分析 Part1:hami-device-plugin-nvidia 实现
云原生·kubernetes·gpu·vgpu
weiwei22844
1 个月前
VS2019+CUDA12.5入门
gpu·vs2019·cuda
扫地的小何尚
1 个月前
全新NVIDIA Llama Nemotron Nano视觉语言模型在OCR基准测试中准确率夺冠
c++·人工智能·语言模型·机器人·ocr·llama·gpu
nuczzz
1 个月前
GPU虚拟化
docker·kubernetes·k8s·gpu·nvidia
扫地的小何尚
1 个月前
NVIDIA Dynamo:数据中心规模的分布式推理服务框架深度解析
人工智能·分布式·microsoft·链表·语言模型·gpu
探索云原生
1 个月前
开源 vGPU 方案:HAMi,实现细粒度 GPU 切分
ai·云原生·kubernetes·gpu
热门推荐
01全球最强模型Grok4,国内已可免费使用!(附教程)02KGG转MP3工具|非KGM文件|解密音频03Coze扣子平台完整体验和实践(附国内和国际版对比)04身弱武修法:玄之又玄,奇妙之门05集群聊天服务器---MySQL数据库的建立06扣子(coze)实战|我用扣子搭建了一个自动分析小红薯笔记内容的AI应用|详细步骤拆解07LOT: 通过逻辑增强大型语言模型的零样本Chain-of-Thought推理能力08使用Ruby接入实时行情API教程09DeepSeek各版本说明与优缺点分析10基于odoo17的设计模式详解---单例模式