技术栈
计算框架
smartcat2010
2 个月前
计算框架
TensorRT-LLM高级用法
--multi_block_modedecoding phase, 推理1个新token,平时:按照batch样本,按照head,将计算平均分给所有SM;