TensorRT-LLM中的MoE并行推理

smartcat20102025-01-09 12:31

2种并行方式：

moe_tp_size：按照维度切分，每个GPU拥有所有Expert的一部分权重。

moe_ep_size: 按照Expert切分，每个GPU有用一部分Expert的所有权重。

二者可以搭配一起使用。

限制：二者的乘积，必须等于模型并行（不是指moe_tp_size，而是整个模型的tp_size)的卡数。

上一篇：【leetcode100】二叉树的直径

下一篇：HTML课堂之搜索工具箱/讲师duluo

热门推荐

01全球最强模型Grok4，国内已可免费使用！（附教程）02KGG转MP3工具|非KGM文件|解密音频 03Coze扣子平台完整体验和实践（附国内和国际版对比）04身弱武修法：玄之又玄，奇妙之门 05集群聊天服务器---MySQL数据库的建立 06扣子（coze）实战|我用扣子搭建了一个自动分析小红薯笔记内容的AI应用|详细步骤拆解 07LOT: 通过逻辑增强大型语言模型的零样本Chain-of-Thought推理能力 08使用Ruby接入实时行情API教程 09DeepSeek各版本说明与优缺点分析 10基于odoo17的设计模式详解---单例模式