技术栈

张量并行原理

minhuan
4 小时前
大模型应用·单卡4090显存优化·模型单卡分片加载·显存贫瘠分析·张量并行原理
单卡4090显存优化实践:模型单卡分片加载、推理链路拆解、延迟与吞吐平衡调优.190基本我们做大模型推理落地、本地私有化部署,都会遇到一个非常头疼的现实问题:手握RTX 4090显卡,显存规格足够强悍,却依旧跑不动千亿、百亿参数级别的大模型。
我是有底线的