gptq

人肉推土机23 天前
vllm·gptq·awq·大模型量化
大模型量化实战:GPTQ与AWQ量化方案对比与部署优化近年来,大型语言模型(LLMs)在自然语言处理领域取得了突破性进展,展现出惊人的能力。然而,LLMs 的巨大参数量和计算需求带来了高昂的部署成本和推理延迟,限制了它们在资源受限环境(如边缘设备)或需要低延迟场景下的应用。
Jackilina_Stone1 个月前
人工智能·python·gptq
【模型量化】GPTQ 与 AutoGPTQGPTQ是一种用于类GPT线性最小二乘法的量化方法,它使用基于近似二阶信息的一次加权量化。本文中也展示了如何使用量化模型以及如何量化自己的模型AutoGPTQ。
Hoper.J7 个月前
模型量化·gptq·awq·gguf·ggml
GPTQ vs AWQ vs GGUF(GGML) 速览和 GGUF 文件命名规范简单介绍一下四者的区别。参考链接:GPTQ - 2210.17323 | AWQ - 2306.00978 | GGML | GGUF - docs | What is GGUF and GGML?
神奇的代码在哪里8 个月前
人工智能·大模型·gptq·minicpm·端侧大模型
MiniCPM3-4B | 笔记本电脑运行端侧大模型OpenBMB/MiniCPM3-4B-GPTQ-Int4量化版 | PyCharm环境2024年9月5日,面壁智能发布了MiniCPM3-4B,面壁的测试结果声称MiniCPM3-4B表现超越 Phi-3.5-mini-instruct 和 GPT-3.5-Turbo-0125,并且能够比肩 Llama3.1-8B-Instruct、Qwen2-7B-Instruct、GLM-4-9B-Chat 等多个 7B-9B 参数量的模型。
engchina1 年前
oobabooga·gptq·awq·llama.cpp·exl2
本地部署 text-generation-webui一直喜欢用 FastChat 本地部署大语言模型,今天试一试 text-generation-webui 这个项目。