awq

玩电脑的辣条哥12 小时前
大模型·模型量化·gptq·awq
模型量化AWQ和GPTQ哪种效果好?AWQGPTQ模型量化AWQ和GPTQ哪种效果好?关于AWQ(Adaptive Weight Quantization)和GPTQ(Generative Pre-trained Transformer Quantization)这两种量化方法的效果比较,具体优劣通常依赖于应用场景、模型结构和目标指标(如精度保持、推理速度、硬件支持等)。以下是两者的详细介绍与对比:
人肉推土机1 个月前
vllm·gptq·awq·大模型量化
大模型量化实战:GPTQ与AWQ量化方案对比与部署优化近年来,大型语言模型(LLMs)在自然语言处理领域取得了突破性进展,展现出惊人的能力。然而,LLMs 的巨大参数量和计算需求带来了高昂的部署成本和推理延迟,限制了它们在资源受限环境(如边缘设备)或需要低延迟场景下的应用。
Hoper.J7 个月前
模型量化·gptq·awq·gguf·ggml
GPTQ vs AWQ vs GGUF(GGML) 速览和 GGUF 文件命名规范简单介绍一下四者的区别。参考链接:GPTQ - 2210.17323 | AWQ - 2306.00978 | GGML | GGUF - docs | What is GGUF and GGML?
Fulin_Gao8 个月前
部署·量化·awq
【量化部署】AWQ in MLSys 2024论文: AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration 作者: MIT 代码: AWQ 特点: 该方法是一个仅量化权重的方法(W4A16),AWQ认为只有极少部分(1%)模型权重是十分重要的,在量化时应该着重保护它们。AWQ根据校准数据输入模型后得到的激活值的量级来锁定重要权重,通过放大这些权重来实现对他们的保护,放大因子是对应激活量级的 α \alpha α次方。
伊织code10 个月前
llama·量化·autogptq·quantization·awq·quanto·aqlm
Llama - 量化本文翻译整理自: https://llama.meta.com/docs/how-to-guides/quantization/
two_apples10 个月前
llm·量化·awq
LLM量化--AWQ论文阅读笔记写在前面:近来大模型十分火爆,所以最近开启了一波对大模型推理优化论文的阅读,下面是自己的阅读笔记,里面对文章的理解并不全面,只将自己认为比较重要的部分摘了出来,详读的大家可以参看原文 原论文地址:https://arxiv.org/pdf/2306.00978
engchina1 年前
oobabooga·gptq·awq·llama.cpp·exl2
本地部署 text-generation-webui一直喜欢用 FastChat 本地部署大语言模型,今天试一试 text-generation-webui 这个项目。