模型量化

玩电脑的辣条哥

模型量化AWQ和GPTQ哪种效果好?AWQGPTQ模型量化AWQ和GPTQ哪种效果好?关于AWQ（Adaptive Weight Quantization）和GPTQ（Generative Pre-trained Transformer Quantization）这两种量化方法的效果比较，具体优劣通常依赖于应用场景、模型结构和目标指标（如精度保持、推理速度、硬件支持等）。以下是两者的详细介绍与对比：

模型压缩技术（二），模型量化让模型“轻装上阵”在人工智能蓬勃发展的浪潮下，大模型在自然语言处理、计算机视觉等诸多领域大放异彩，像知名的GPT以及各类开源大语言模型，其规模与复杂度持续攀升。然而，这一发展也带来了挑战，模型越大，对计算资源和存储资源的索求便越高。

从加载到对话：使用 Llama-cpp-python 本地运行量化 LLM 大模型（GGUF）（无需显卡）使用 Llama-cpp-python 在本地加载具有 70 亿参数的 LLM 大语言模型，通过这篇文章你将学会用代码创建属于自己的 GPT。建议阅读完 19a 的「前言」和「模型下载」部分后再进行本文的阅读。

GPTQ vs AWQ vs GGUF（GGML）速览和 GGUF 文件命名规范简单介绍一下四者的区别。参考链接：GPTQ - 2210.17323 | AWQ - 2306.00978 | GGML | GGUF - docs | What is GGUF and GGML?

MonkeyKing_sunyuhua

模型量化方法-GPTQGPTQ 是一种高效的量化方法，用于大规模语言模型的量化和加速推理。GPTQ 主要目标是在不显著降低模型性能的情况下，最大限度地减少模型的计算复杂度和内存占用，从而使得这些模型可以在资源有限的硬件上运行。

llama.cpp 转化 huggingface 模型失败解决路径./main -m ./models/book_q4_K_M -n 128报错：terminate called after throwing an instance of 'std::out_of_range' what(): unordered_map::at

【自然语言处理】【大模型】BitNet：用1-bit Transformer训练LLM论文地址：https://arxiv.org/pdf/2310.11453.pdf相关博客【自然语言处理】【大模型】BitNet：用1-bit Transformer训练LLM 【自然语言处理】BitNet b1.58：1bit LLM时代【自然语言处理】【长文本处理】RMT：能处理长度超过一百万token的Transformer 【自然语言处理】【大模型】MPT模型结构源码解析(单机版) 【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版) 【自然语言处理】【大模型】BLOOM模

【自然语言处理】BitNet b1.58：1bit LLM时代论文地址：https://arxiv.org/pdf/2402.17764.pdf相关博客【自然语言处理】BitNet b1.58：1bit LLM时代【自然语言处理】【长文本处理】RMT：能处理长度超过一百万token的Transformer 【自然语言处理】【大模型】MPT模型结构源码解析(单机版) 【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版) 【自然语言处理】【大模型】BLOOM模型结构源码解析(单机版)

大语言模型量化方法对比：GPTQ、GGUF、AWQ在过去的一年里，大型语言模型(llm)有了飞速的发展，在本文中，我们将探讨几种(量化)的方式，除此以外，还会介绍分片及不同的保存和压缩策略。

新缸中之脑

LLM大模型量化原理大型语言模型（LLM）可以用于文本生成、翻译、问答任务等。但是，LLM 也非常大（显然，大型语言模型）并且需要大量内存。这对于手机和平板电脑等小型设备来说可能具有挑战性。

爱听歌的周童鞋

TensorRT量化实战课YOLOv7量化：YOLOv7-PTQ量化(一)手写 AI 推出的全新 TensorRT 模型量化实战课程，链接。记录下个人学习笔记，仅供自己参考。该实战课程主要基于手写 AI 的 Latte 老师所出的 TensorRT下的模型量化，在其课程的基础上，所整理出的一些实战应用。

NLP（六十八）使用Optimum进行模型量化本文将会介绍如何使用HuggingFace的Optimum，来对微调后的BERT模型进行量化（Quantization）。在文章NLP（六十七）BERT模型训练后动态量化（PTDQ）中，我们使用PyTorch自带的PTDQ（Post Training Dynamic Quantization）量化策略对微调后的BERT模型进行量化，取得了模型推理性能的提升（大约1.5倍）。本文将尝试使用Optimum量化工具。

量化自定义PyTorch模型入门教程在以前Pytorch只有一种量化的方法，叫做“eager mode qunatization”，在量化我们自定定义模型时经常会产生奇怪的错误，并且很难解决。但是最近，PyTorch发布了一种称为“fx-graph-mode-qunatization”的方方法。在本文中我们将研究这个fx-graph-mode-qunatization”看看它能不能让我们的量化操作更容易，更稳定。