GGUF、GPTQ、AWQ、EXL2、MLX、VMLX...运行大模型，为什么会有这么多格式？

最早的大模型，只存在于超级 GPU 集群里。看 GPT-3、PaLM、Claude，感觉它们像一种遥远的云端能力，离普通开发者很远。你知道它很强，但你并不觉得自己真的能拥有它。

后来事情开始慢慢变化。越来越多人开始尝试本地跑模型。

一开始只是极客在折腾，后来变成开发者在折腾，再后来，甚至很多普通用户也开始在自己的电脑上下载模型、部署模型、测试模型。

这个过程中，一个特别有意思的现象出现了：

GGUF、GPTQ、AWQ、EXL2、MLX、VMLX 这些名字，开始越来越频繁地出现在社区里。

很多刚接触本地 AI 的人，会有一种很强的困惑感。

为什么会有这么多格式？

为什么大家总在换路线？

为什么 Hugging Face 上永远有一堆不同版本：

text 复制代码

Qwen2.5-7B-GPTQ
Qwen2.5-7B-AWQ
Qwen2.5-7B-GGUF
Qwen2.5-7B-EXL2
Qwen2.5-7B-MLX

看起来像整个行业都在重复造轮子。但如果你真的往底层看，会发现它们其实都在做同一件事：

想办法把大模型从"云端超级计算机"，变成"普通设备也能运行"的东西。

而这件事，比很多人想象得更重要。

大模型轻量化生态

原来"大模型"并不是某种虚无缥缈的云服务。

它其实就是一个巨大到离谱的参数文件。

比如一个 7B 模型，原始 FP16 权重，可能十几个 GB。

70B 模型，直接上百 GB。

"这个东西到底怎么塞进普通设备里？"

现实世界不是论文。现实世界里有：

显存限制
内存限制
功耗限制
温度限制
电池限制
成本限制

于是整个行业突然进入另一个阶段：

不再只是比谁模型更强，而是开始比谁更会"压缩模型"。

GGUF、GPTQ、AWQ、EXL2、MLX、VMLX，本质上都诞生于这个背景。

它们看起来像不同格式。其实背后是一场：

"让 AI 真正进入设备"的战争。

最早大规模爆发的，是 GPTQ。

很多人今天已经忘了，当年本地 AI 第一次真正开始流行，其实就是因为 GPTQ。

那时候大家第一次发现：

原来 4bit 量化之后，7B 模型真的能跑进消费级显卡。

这是一个非常关键的时间点。

因为在 GPTQ 之前，大模型对普通开发者来说还是"看得见但摸不着"的东西。显存门槛太高，部署太重。

GPTQ 做的事情其实很简单：它开始接受一个现实。

模型不一定非要保持原始精度。

于是它开始"压缩"。把 FP16 的权重，压成 INT4。

模型会损失一点精度。但换来的，是显存占用直接腰斩。很多人第一次在自己电脑上跑起 LLaMA、Vicuna，就是那个时期。

那时候 Hugging Face 上到处都是：

text 复制代码

TheBloke/xxx-GPTQ

因为整个社区都在疯狂量化模型。现在回头看，会发现 GPTQ 的意义特别大。

它第一次让行业意识到：

"大模型真正的大规模普及，一定不是靠更大的 GPU，而是靠更高效的压缩。"

这个方向后来彻底改变了整个本地 AI 生态。

但很快，大家又发现了另一个问题。

模型虽然能跑了。可很多量化模型，开始变"笨"。

尤其是在：

数学
推理
长上下文
代码生成

这些场景里。于是 AWQ 又开始出现。AWQ 很有意思，它不像 GPTQ 那么强调"先压缩再说"。

它开始关注另一件事：

模型到底哪些地方最重要。

于是它会优先保护那些关键权重。你可以理解成：模型的大脑里，并不是每个神经元都同样重要。有些区域特别关键。

AWQ 会尽量保住这些核心部分的精度。

所以很多人第一次用 AWQ 的时候，会觉得一种很微妙的事情：

"怎么同样是 4bit，AWQ 好像更聪明一点？"

因为它确实在努力减少"智商损失"。这其实特别像视频压缩。有些压缩方式是暴力压缩。有些则会优先保留关键画面区域。

AWQ 更像后者。

然后 GGUF 又出现了。GGUF 的出现，其实意味着：

本地 AI 开始真正走向 CPU 世界。

这件事很关键。因为之前很多量化方案，本质上还是偏 GPU。

但现实是：不是每个人都有 4090。于是 llama.cpp 生态开始崛起。

GGUF 本质上是一种：

专门为本地推理优化的格式。

它非常强调：

CPU 推理效率
内存映射
本地加载
跨平台兼容

然后特别神奇的事情发生了。Mac 用户开始爆炸式增长。因为 Apple Silicon 的统一内存架构，和 GGUF 特别搭。很多原本跑不动的模型，突然就"能用了"。于是后来你会看到：

Ollama
LM Studio
Jan
GPT4All

这些工具，几乎全部拥抱 GGUF。因为 GGUF 太适合：

"普通人的本地 AI" 了。

今天很多人第一次本地跑 Qwen、LLaMA、DeepSeek，其实底层跑的就是 GGUF。

GGUF 与本地 AI 爆发

但事情还没结束。因为后来大家又发现：模型不仅要能跑。

还得：

足够快。

尤其是 Agent、Copilot、代码补全这些场景开始爆发之后。因为 Agent 和聊天不一样。聊天稍微慢一点，用户还能接受。

但代码补全如果卡顿：体验会瞬间崩掉。于是 EXL2 开始走另一条路线。它开始极限追求：

推理吞吐
KV Cache
GPU kernel
长上下文速度

很多时候你会发现：EXL2 并不一定是兼容性最好的。但它经常是：

最快的那一批。

这其实说明整个行业开始进入另一个阶段：

大模型已经不只是"能用"。

而是开始追求：

延迟
实时性
交互速度

因为 AI 开始越来越像操作系统的一部分。

然后 Apple 又做了一件特别重要的事情。MLX 出现了。

MLX 的意义其实非常大。

因为它意味着：

Apple 正式下场做本地 AI 生态。

以前 Mac 跑 AI，总有点尴尬。CUDA 是 NVIDIA 的。很多推理框架优化也优先 NVIDIA。但 Apple Silicon 出现之后，一切开始变了。

统一内存架构特别适合本地模型。CPU、GPU、NPU 可以共享内存。

于是 MLX 开始出现。它整个方向都特别明确：

为 Apple 芯片优化
Metal 加速
本地推理
小模型高速运行

后来你会看到：

mlx-lm
TurboQuant
Qwen-MLX
DeepSeek-MLX

开始越来越多。因为大家突然发现：

MacBook 真的开始能舒服地跑模型了。

而且不是"勉强能跑"。是真的：

很流畅。

然后再往后，事情开始变得更激进。VMLX 这类路线开始出现。GGUF 更偏：

"电脑本地运行"。

但 VMLX 已经开始往：

手机
边缘设备
机器人
AR 眼镜
IoT

这些方向走了。这时候行业开始思考的已经不是：

"模型能不能跑起来"。

而是：

功耗怎么办
电池怎么办
发热怎么办
实时性怎么办

于是模型继续疯狂压缩。甚至开始往：

2bit
动态量化
稀疏化

这些方向走。

因为 AI 真正的大规模爆发，一定不只发生在服务器。它最终会进入：

所有设备。

从云端 AI 到设备 AI

所以现在回头再看 GGUF、GPTQ、AWQ、EXL2、MLX、VMLX，会发现它们根本不是几个孤立格式。

它们其实是：

大模型从"实验室时代"走向"设备时代"的完整演化路径。

GPTQ 解决的是："普通显卡终于能跑模型。"

AWQ 解决的是："量化后别变傻。"

GGUF 解决的是："没有 GPU 也能本地 AI。"

EXL2 解决的是："推理速度必须足够快。"

MLX 解决的是："Apple Silicon 如何成为 AI 设备。"

VMLX 解决的是："模型怎么真正进入终端世界。"

它们看起来在卷格式。其实是在卷：

AI 如何真正进入现实世界。

而这件事，可能比模型排行榜本身更重要。因为未来真正决定 AI 普及速度的，很可能不是谁 benchmark 第一。

而是谁能：

更轻
更快
更省资源
更容易部署

谁就更有机会真正进入：

个人电脑
企业系统
手机
汽车
机器人
智能设备

大模型的下一个时代，可能不再只是"更强"。

而是：

"更能落地"。

关于作者

我是安东尼（tuaran.me），一名专注于前端与 AI 工程化的独立开发者。

我在建设「博主联盟」 ------ 连接 AI 产品方与技术博主的品牌增长平台，帮 AI 产品精准触达开发者，也帮博主拿到推广资源与成长机会。

同时也在做「前端下一步」 ------ 一个聚焦前端、AI Agent 与大模型的技术情报站，帮你从技术革新焦虑中解脱，得到技术转向判断。

希望本篇内容对你有所启发。