双模型部署实践 - 双模型部署实践技术,学习,经验文章

minhuan

1 个月前

分层配额显存共享方案：RTX4090运行ChatGLM2/3双模型，显存池化应用实践.194本地私有化部署ChatGLM系列模型是比较普遍的落地场景，实际过程中也必定会碰到一个硬性资源瓶颈：一张24G的 RTX4090 显卡，原生框架只能串行加载ChatGLM2-6B、ChatGLM3-6B，无法同时在线提供服务。单独加载其中一个FP16权重模型就要占用11GB左右显存，空载状态下大量显存空白闲置；如果强行开两个Python进程分别跑两代GLM，CUDA进程内存隔离机制会直接抛出OOM显存溢出错误。