dflash - dflash技术,学习,经验文章

若苗瞬

2 个月前

记一次失败的本地部署 LLM MTP 模型的过程先说结论：如果显卡没有24GB+的显存，确实没必要折腾。显存容量决定体验上限，MTP不是“免费加速”，而是用更多显存换 decode 加速。