技术栈

dflash

若苗瞬
2 小时前
llm·llama·cpp·gemma·mtp·ik_llama·dflash
记一次失败的本地部署 LLM MTP 模型的过程先说结论:如果显卡没有24GB+的显存,确实没必要折腾。 显存容量决定体验上限,MTP不是“免费加速”,而是用更多显存换 decode 加速。
我是有底线的