技术栈
大模型量化
人肉推土机
23 天前
vllm
·
gptq
·
awq
·
大模型量化
大模型量化实战:GPTQ与AWQ量化方案对比与部署优化
近年来,大型语言模型(LLMs)在自然语言处理领域取得了突破性进展,展现出惊人的能力。然而,LLMs 的巨大参数量和计算需求带来了高昂的部署成本和推理延迟,限制了它们在资源受限环境(如边缘设备)或需要低延迟场景下的应用。
Nicolas893
2 个月前
性能调优
·
量化
·
大模型推理
·
大模型量化
·
推理模型量化
·
qwq32b
·
gptq量化
【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型
之所以做量化,就是希望在现有的硬件条件下,提升性能。量化能将模型权重从高精度(如FP32)转换为低精度(如INT8/FP16),内存占用可减少50%~75%。低精度运算(如INT8)在GPU等硬件上计算效率更高,推理速度可提升2~4倍。