qwq32b - qwq32b技术,学习,经验文章

Nicolas893

7 个月前

【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型之所以做量化，就是希望在现有的硬件条件下，提升性能。量化能将模型权重从高精度（如FP32）转换为低精度（如INT8/FP16），内存占用可减少50%~75%。低精度运算（如INT8）在GPU等硬件上计算效率更高，推理速度可提升2~4倍。