大模型量化

*JOKER15 天前
qlora·大模型量化·双重量化
GPTQ&QLoRA&4bit 量化&NormalFloat4&双重量化这是我们在hugging face里进行4 bit 量化加载的配置文件。之前我们讲的量化方法都是线性量化的方法,也就是在量化前的浮点数和量化后的整数之间是满足线性关系的。换一种不太准确的说法,就是对于量化后的每个整数值,都有同样多的浮点数的值映射到它上面。
*JOKER15 天前
人工智能·深度学习·机器学习·gptq·大模型量化
[LLM量化] 深入理解大模型量化:GPTQ 原理解析接下来看这个比较经典的GPTQ,它的量化算法。从名字上也可以看到,它在我们前面的分类里面属于post training quantization,也就是不需要对模型做训练的。然后它是对任意的已经训练好的模型可以做量化。然后它是weight-only,也只对模型权重去做量化,那就没有static和dynamic的区别,而至于mapping type的话,它是属于uniform的,就是我量化的时候只要除以这个scale,然后做四舍五入到对应的这个整数值就可以。反量化的时候就是乘以这个scale对吧?对称和不对
大傻^2 个月前
llama·大模型量化
大模型基于llama.cpp量化详解llama.cpp 是一个高性能的 LLM 推理库,支持在各种硬件(包括 CPU 和 GPU)上运行量化后的大语言模型。本文档详细介绍如何使用 llama.cpp 将 HuggingFace 格式的模型转换为 GGUF 格式,并进行不同程度的量化。
minhuan3 个月前
人工智能·大模型应用·模型蒸馏·大模型量化·模型剪枝
大模型应用:大模型瘦身:量化、蒸馏、剪枝的基础原理与应用场景深度解析.56如今大模型越来越火,不管是企业做业务落地,还是我们作为个人开发者上手体验,都绕不开一个核心问题:大模型虽强,但太笨重,动辄几十上百GB显存占用,普通硬件跑不动,推理延迟还高,根本没法适配边缘设备、实时场景这些实际需求。这时候,轻量化技术就成了破局关键,而量化、蒸馏、剪枝都是最常用的三种方案。但我们又该怎么抉择,哪种合适,或怎么去理解三者的差别,每种方式的存在肯定有它独特的道理和最适用的场景,尽管它们各有侧重,没有绝对的优劣,但对于技术优化选型而言,选对了能少走很多弯路,选错了要么精度崩了,要么落地成本翻倍
人肉推土机1 年前
vllm·gptq·awq·大模型量化
大模型量化实战:GPTQ与AWQ量化方案对比与部署优化近年来,大型语言模型(LLMs)在自然语言处理领域取得了突破性进展,展现出惊人的能力。然而,LLMs 的巨大参数量和计算需求带来了高昂的部署成本和推理延迟,限制了它们在资源受限环境(如边缘设备)或需要低延迟场景下的应用。
Nicolas8931 年前
性能调优·量化·大模型推理·大模型量化·推理模型量化·qwq32b·gptq量化
【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型之所以做量化,就是希望在现有的硬件条件下,提升性能。量化能将模型权重从高精度(如FP32)转换为低精度(如INT8/FP16),内存占用可减少50%~75%。低精度运算(如INT8)在GPU等硬件上计算效率更高,推理速度可提升2~4倍。
我是有底线的