技术栈
int4/int8
尽兴-
2 小时前
人工智能
·
gptq
·
awq
·
gguf
·
int4/int8
6.1 模型优化:量化 INT4/INT8、GPTQ、AWQ、GGUF
一个 70B 参数的 LLM,FP16 精度需要 140GB 显存——这超出了绝大多数人的预算。模型量化就是通过牺牲一点点精度,把模型体积压缩到原来的 1/4 甚至 1/8,让大模型跑在消费级显卡甚至笔记本电脑上成为可能。
我是有底线的