int4/int8 - int4/int8技术,学习,经验文章

尽兴-

1 个月前

6.1 模型优化：量化 INT4/INT8、GPTQ、AWQ、GGUF一个 70B 参数的 LLM，FP16 精度需要 140GB 显存——这超出了绝大多数人的预算。模型量化就是通过牺牲一点点精度，把模型体积压缩到原来的 1/4 甚至 1/8，让大模型跑在消费级显卡甚至笔记本电脑上成为可能。