技术栈

gptq量化

melody_of_Canon
21 天前
python·gptq量化
使用 gptqmodel 量化 Qwen3-Coder-30B-A3B-InstructFile “~/quantization/lib/python3.13/site-packages/gptqmodel/models/base.py”, line 450, in quantize return module_looper.loop( ~~~~~~~~~~~~~~~~~~^ calibration_enable_gpu_cache=calibration_enable_gpu_cache, ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
Nicolas893
5 个月前
性能调优·量化·大模型推理·大模型量化·推理模型量化·qwq32b·gptq量化
【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型之所以做量化,就是希望在现有的硬件条件下,提升性能。量化能将模型权重从高精度(如FP32)转换为低精度(如INT8/FP16),内存占用可减少50%~75%。低精度运算(如INT8)在GPU等硬件上计算效率更高,推理速度可提升2~4倍。