TensorRT-LLM中的MoE并行推理

2种并行方式:

moe_tp_size:按照维度切分,每个GPU拥有所有Expert的一部分权重。

moe_ep_size: 按照Expert切分,每个GPU有用一部分Expert的所有权重。

二者可以搭配一起使用。

限制:二者的乘积,必须等于模型并行(不是指moe_tp_size,而是整个模型的tp_size)的卡数。

相关推荐
小白狮ww2 天前
要给 OCR 装个脑子吗?DeepSeek-OCR 2 让文档不再只是扫描
人工智能·深度学习·机器学习·ocr·cpu·gpu·deepseek
小白狮ww9 天前
Ovis-Image:卓越的图像生成模型
人工智能·深度学习·目标检测·机器学习·cpu·gpu·视觉分割模型
virtaitech10 天前
云平台一键部署【rednote-hilab/dots.ocr】多语言文档布局解析模型
人工智能·科技·ai·ocr·gpu·算力
virtaitech11 天前
如何评价趋动科技推出永久免费的OrionX社区版?
人工智能·科技·ai·免费·gpu·池化技术
virtaitech16 天前
云平台一键部署【Tencent-YouTu-Research/Youtu-LLM-2B】具备原生智能体能力
人工智能·深度学习·机器学习·ai·gpu·算力·云平台
hahahahanhanhan18 天前
Tensorflow使用GPU(cuda和cudnn和tensorflow下载)
人工智能·python·tensorflow·gpu
InfraTech20 天前
虚拟GPU MIG原理与实践详解
gpu
scott19851220 天前
智驾芯片算力比较 Horizon J6 VS Nvidia orin
gpu
缘友一世21 天前
精粤X99-TI D4 PLUS大板使用多显卡BIOS设置
bug·gpu·硬件·主板·x99
明洞日记23 天前
【CUDA手册002】CUDA 基础执行模型:写出第一个正确的 Kernel
c++·图像处理·算法·ai·图形渲染·gpu·cuda