awq

Hoper.J3 个月前
模型量化·gptq·awq·gguf·ggml
GPTQ vs AWQ vs GGUF(GGML) 速览和 GGUF 文件命名规范简单介绍一下四者的区别。参考链接:GPTQ - 2210.17323 | AWQ - 2306.00978 | GGML | GGUF - docs | What is GGUF and GGML?
Fulin_Gao4 个月前
部署·量化·awq
【量化部署】AWQ in MLSys 2024论文: AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration 作者: MIT 代码: AWQ 特点: 该方法是一个仅量化权重的方法(W4A16),AWQ认为只有极少部分(1%)模型权重是十分重要的,在量化时应该着重保护它们。AWQ根据校准数据输入模型后得到的激活值的量级来锁定重要权重,通过放大这些权重来实现对他们的保护,放大因子是对应激活量级的 α \alpha α次方。
伊织code5 个月前
llama·量化·autogptq·quantization·awq·quanto·aqlm
Llama - 量化本文翻译整理自: https://llama.meta.com/docs/how-to-guides/quantization/
two_apples5 个月前
llm·量化·awq
LLM量化--AWQ论文阅读笔记写在前面:近来大模型十分火爆,所以最近开启了一波对大模型推理优化论文的阅读,下面是自己的阅读笔记,里面对文章的理解并不全面,只将自己认为比较重要的部分摘了出来,详读的大家可以参看原文 原论文地址:https://arxiv.org/pdf/2306.00978
engchina1 年前
oobabooga·gptq·awq·llama.cpp·exl2
本地部署 text-generation-webui一直喜欢用 FastChat 本地部署大语言模型,今天试一试 text-generation-webui 这个项目。