技术栈
dflash
若苗瞬
2 小时前
llm
·
llama
·
cpp
·
gemma
·
mtp
·
ik_llama
·
dflash
记一次失败的本地部署 LLM MTP 模型的过程
先说结论:如果显卡没有24GB+的显存,确实没必要折腾。 显存容量决定体验上限,MTP不是“免费加速”,而是用更多显存换 decode 加速。
我是有底线的