技术栈

TensorRT-LLM中的MoE并行推理

smartcat20102025-01-09 12:31

2种并行方式:

moe_tp_size:按照维度切分,每个GPU拥有所有Expert的一部分权重。

moe_ep_size: 按照Expert切分,每个GPU有用一部分Expert的所有权重。

二者可以搭配一起使用。

限制:二者的乘积,必须等于模型并行(不是指moe_tp_size,而是整个模型的tp_size)的卡数。

上一篇:【leetcode100】二叉树的直径
下一篇:HTML课堂之搜索工具箱/讲师duluo
相关推荐
爱学习的大牛123
5 天前
GPU架构学习
学习·架构·gpu
virtaitech
5 天前
趋动科技 OrionX 社区版永久免费:重塑 AI 算力格局的“胜负手”
人工智能·科技·ai·gpu·池化技术
专注VB编程开发20年
7 天前
C#,VB.NET GPU计算和调试
算法·gpu
love530love
14 天前
【OpenClaw 本地实战 Ep.2】零代码对接:使用交互式向导快速连接本地 LM Studio 用 CUDA GPU 推理
人工智能·windows·gpu·cuda·ollama·lm studio·openclaw
Eloudy
15 天前
CUTLASS README v4.4.0
机器学习·gpu·cuda
RainbowC0
19 天前
总结各GPU的OpenCL子组洗牌支持情况
gpu
70asunflower
19 天前
算子开发到底在做什么?
gpu·就业·岗位
迎仔
21 天前
B-基础:GPU驱动基础概念
gpu
迎仔
21 天前
F-排查:GPU驱动故障排查手册
gpu·gpu驱动
迎仔
21 天前
D-安装:GPU驱动安装与升级最佳实践
gpu·gpu驱动
热门推荐
01GitHub 镜像站点02【OpenClaw 本地实战 Ep.3】突破瓶颈:强制修改 openclaw.json 解锁 32k 上下文记忆03OpenClaw 使用和管理 MCP 完全指南04OpenClaw优化飞书API 额度已耗尽问题05OpenClaw + 飞书(Feishu)环境搭建指南06Claude Code + GLM4.7 避坑指南:解决 Unable to connect to Anthropic services07Window 10部署openclaw报错node.exe : npm error code 12808OpenClaw大龙虾机器人完整安装教程09Clawdbot部署教程:解决‘gateway token missing’授权问题的完整步骤10OpenClaw 接入阿里云百炼 Coding Plan 指南