技术栈
autogptq
伊织code
4 个月前
llama
·
量化
·
autogptq
·
quantization
·
awq
·
quanto
·
aqlm
Llama - 量化
本文翻译整理自: https://llama.meta.com/docs/how-to-guides/quantization/
NLP工程化
1 年前
人工智能
·
python
·
llama2
·
autogptq
Llama2-Chinese项目:4-量化模型
一.量化模型调用方式 下面是一个调用FlagAlpha/Llama2-Chinese-13b-Chat[1]的4bit压缩版本FlagAlpha/Llama2-Chinese-13b-Chat-4bit[2]的例子: