TensorRT-LLM中的MoE并行推理

2种并行方式:

moe_tp_size:按照维度切分,每个GPU拥有所有Expert的一部分权重。

moe_ep_size: 按照Expert切分,每个GPU有用一部分Expert的所有权重。

二者可以搭配一起使用。

限制:二者的乘积,必须等于模型并行(不是指moe_tp_size,而是整个模型的tp_size)的卡数。

相关推荐
小武~15 小时前
ubuntu 系統使用過程中黑屏問題分析
ubuntu·gpu·黑屏
weiwei228444 天前
NVIDIA Kernel级性能分析工具Nsight Compute入门详解
gpu·cuda·nsight compute
云道轩5 天前
阿里云和华为云Rocky LINUX 9.X镜像就绪及低端可用英伟达GPU
阿里云·华为云·云计算·gpu·rocky linux
杰克逊的日记8 天前
gpu与cpu各厂商的优劣
运维·cpu·gpu
weiwei2284416 天前
NVIDIA系统级性能分析工具Nsight Systems入门详解
gpu·cuda·nsight systems
weiwei2284424 天前
CUDA编程初探
gpu·cuda
数据智能老司机24 天前
GPU 编程实战——使用 PyCUDA 与 CuPy 功能
人工智能·python·gpu
都都学算法1 个月前
【CUDA编程】hello world 级入门(一)
gpu
杰克逊的日记1 个月前
GPU运维常见问题处理
linux·运维·gpu
胡耀超1 个月前
基于Docker的GPU版本飞桨PaddleOCR部署深度指南(国内镜像)2025年7月底测试好用:从理论到实践的完整技术方案
运维·python·docker·容器·ocr·paddlepaddle·gpu