cuda12 - cuda12技术,学习,经验文章

Alex_StarSky

3 年前

GPT实战系列-实战Qwen在Cuda 12+24G部署方案ChatGLM4进行新闻发布，但还没有开源更新，在此之际，实战部署测试Qwen大模型。目前Qwen的口碑貌似还不错，测试显卡内存24G，毕竟有限，排除了Qwen14非量化方案Qwen-14B-Chat，只有 Qwen-7B-Chat，Qwen-7B-Chat-Int4，Qwen-14B-Chat-Int4 模型可用。测试过程中Qwen-7B-Chat出现显存bug，只能都用Int4方案。