技术栈

gptq量化误差补偿

minhuan
3 小时前
人工智能·机器学习·量化校准·gptq量化误差补偿·awq权重均衡
大模型应用:量化校准:全局/分组 Min-Max、GPTQ、AWQ 算法最优匹配.54一直以来,我们都围绕大模型的本地部署由浅入深的仔细讨论,大模型的落地困境从来离不开“显存”与“速度”,以 LLaMA-7B 为例,FP32 精度下显存占用高达 28GB,普通消费级显卡根本无法承载。而量化,正是把庞然大物塞进普通硬件的核心技术,通过前几期文章我们详细的讲解了采用量化将 32 位浮点数(FP32)转换为 4 位整数(INT4)的过程,可以使显存占用可降低 75%,推理速度提升 4 倍以上。
我是有底线的