技术栈

计算框架

smartcat2010
8 个月前
计算框架
TensorRT-LLM高级用法--multi_block_modedecoding phase, 推理1个新token,平时:按照batch样本,按照head,将计算平均分给所有SM;