技术栈

TensorRT-LLM中的MoE并行推理

smartcat20102025-01-09 12:31

2种并行方式:

moe_tp_size:按照维度切分,每个GPU拥有所有Expert的一部分权重。

moe_ep_size: 按照Expert切分,每个GPU有用一部分Expert的所有权重。

二者可以搭配一起使用。

限制:二者的乘积,必须等于模型并行(不是指moe_tp_size,而是整个模型的tp_size)的卡数。

上一篇:【leetcode100】二叉树的直径
下一篇:HTML课堂之搜索工具箱/讲师duluo
相关推荐
Seal软件
21 小时前
GPUStack v2:推理加速释放算力潜能,开源重塑大模型推理下半场
llm·gpu
Eloudy
2 天前
learning_gem5 part1_05 gem5 v24.1:使用 gem5 标准库配置脚本
gpu·arch·gem5
Eloudy
4 天前
learning_gem5 part1_04 理解gem5统计信息与输出文件
gpu·arch·gem5
Eloudy
5 天前
全文 -- GPU-Initiated Networking for NCCL
gpu·arch
HyperAI超神经
5 天前
【TVM 教程】优化大语言模型
人工智能·语言模型·自然语言处理·cpu·gpu·编程语言·tvm
Felven
6 天前
天数智芯MR50推理卡测试
gpu·推理·mr50·天数
杰克逊的日记
6 天前
slurm部署
cpu·gpu·作业管理
Eloudy
6 天前
AMD Instinct MI300 系列 GPU 技术规格说明
gpu
Eloudy
10 天前
GPU-Initiated Networking (GIN)及其核心硬件基础 SCI
ic·gpu
web像素之境
10 天前
实时光线追踪加速硬件结构(详细版)
游戏·gpu·计算机图形学
热门推荐
01GitHub 镜像站点02【保姆级教程】免费使用Gemini3的5种方法!免翻墙/国内直连03BongoCat - 跨平台键盘猫动画工具04UV安装并设置国内源05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口(持续更新)06Linux下V2Ray安装配置指南07Google Antigravity:无法登录?早期错误、登录修复和用户反馈指南08Labelme从安装到标注:零基础完整指南09全球最强模型Grok4,国内已可免费使用!(附教程)10在VSCode配置Java开发环境的保姆级教程(适配各类AI编程IDE)