技术栈

双模型部署实践

minhuan
3 小时前
chatglm2·chatglm3·大模型应用·显存池化应用·双模型部署实践
分层配额显存共享方案:RTX4090运行ChatGLM2/3双模型,显存池化应用实践.194本地私有化部署ChatGLM系列模型是比较普遍的落地场景,实际过程中也必定会碰到一个硬性资源瓶颈:一张24G的 RTX4090 显卡,原生框架只能串行加载ChatGLM2-6B、ChatGLM3-6B,无法同时在线提供服务。单独加载其中一个FP16权重模型就要占用11GB左右显存,空载状态下大量显存空白闲置;如果强行开两个Python进程分别跑两代GLM,CUDA进程内存隔离机制会直接抛出OOM显存溢出错误。
我是有底线的