gptq

玩电脑的辣条哥

模型量化AWQ和GPTQ哪种效果好?AWQGPTQ模型量化AWQ和GPTQ哪种效果好?关于AWQ（Adaptive Weight Quantization）和GPTQ（Generative Pre-trained Transformer Quantization）这两种量化方法的效果比较，具体优劣通常依赖于应用场景、模型结构和目标指标（如精度保持、推理速度、硬件支持等）。以下是两者的详细介绍与对比：

人肉推土机

大模型量化实战：GPTQ与AWQ量化方案对比与部署优化近年来，大型语言模型（LLMs）在自然语言处理领域取得了突破性进展，展现出惊人的能力。然而，LLMs 的巨大参数量和计算需求带来了高昂的部署成本和推理延迟，限制了它们在资源受限环境（如边缘设备）或需要低延迟场景下的应用。

Jackilina_Stone

【模型量化】GPTQ 与 AutoGPTQGPTQ是一种用于类GPT线性最小二乘法的量化方法，它使用基于近似二阶信息的一次加权量化。本文中也展示了如何使用量化模型以及如何量化自己的模型AutoGPTQ。

GPTQ vs AWQ vs GGUF（GGML）速览和 GGUF 文件命名规范简单介绍一下四者的区别。参考链接：GPTQ - 2210.17323 | AWQ - 2306.00978 | GGML | GGUF - docs | What is GGUF and GGML?

神奇的代码在哪里

MiniCPM3-4B | 笔记本电脑运行端侧大模型OpenBMB/MiniCPM3-4B-GPTQ-Int4量化版 | PyCharm环境2024年9月5日，面壁智能发布了MiniCPM3-4B，面壁的测试结果声称MiniCPM3-4B表现超越 Phi-3.5-mini-instruct 和 GPT-3.5-Turbo-0125，并且能够比肩 Llama3.1-8B-Instruct、Qwen2-7B-Instruct、GLM-4-9B-Chat 等多个 7B-9B 参数量的模型。

本地部署 text-generation-webui一直喜欢用 FastChat 本地部署大语言模型，今天试一试 text-generation-webui 这个项目。

我是有底线的