技术栈
单卡4090显存优化
minhuan
4 小时前
大模型应用
·
单卡4090显存优化
·
模型单卡分片加载
·
显存贫瘠分析
·
张量并行原理
单卡4090显存优化实践:模型单卡分片加载、推理链路拆解、延迟与吞吐平衡调优.190
基本我们做大模型推理落地、本地私有化部署,都会遇到一个非常头疼的现实问题:手握RTX 4090显卡,显存规格足够强悍,却依旧跑不动千亿、百亿参数级别的大模型。
我是有底线的