技术栈

autogptq

伊织code
10 个月前
llama·量化·autogptq·quantization·awq·quanto·aqlm
Llama - 量化本文翻译整理自: https://llama.meta.com/docs/how-to-guides/quantization/
NLP工程化
2 年前
人工智能·python·llama2·autogptq
Llama2-Chinese项目:4-量化模型一.量化模型调用方式   下面是一个调用FlagAlpha/Llama2-Chinese-13b-Chat[1]的4bit压缩版本FlagAlpha/Llama2-Chinese-13b-Chat-4bit[2]的例子: