最早的大模型,只存在于超级 GPU 集群里。看 GPT-3、PaLM、Claude,感觉它们像一种遥远的云端能力,离普通开发者很远。你知道它很强,但你并不觉得自己真的能拥有它。
后来事情开始慢慢变化。越来越多人开始尝试本地跑模型。
一开始只是极客在折腾,后来变成开发者在折腾,再后来,甚至很多普通用户也开始在自己的电脑上下载模型、部署模型、测试模型。
这个过程中,一个特别有意思的现象出现了:
GGUF、GPTQ、AWQ、EXL2、MLX、VMLX 这些名字,开始越来越频繁地出现在社区里。
很多刚接触本地 AI 的人,会有一种很强的困惑感。
为什么会有这么多格式?
为什么大家总在换路线?
为什么 Hugging Face 上永远有一堆不同版本:
text
Qwen2.5-7B-GPTQ
Qwen2.5-7B-AWQ
Qwen2.5-7B-GGUF
Qwen2.5-7B-EXL2
Qwen2.5-7B-MLX
看起来像整个行业都在重复造轮子。但如果你真的往底层看,会发现它们其实都在做同一件事:
想办法把大模型从"云端超级计算机",变成"普通设备也能运行"的东西。
而这件事,比很多人想象得更重要。
大模型轻量化生态

原来"大模型"并不是某种虚无缥缈的云服务。
它其实就是一个巨大到离谱的参数文件。
比如一个 7B 模型,原始 FP16 权重,可能十几个 GB。
70B 模型,直接上百 GB。
"这个东西到底怎么塞进普通设备里?"
现实世界不是论文。现实世界里有:
- 显存限制
- 内存限制
- 功耗限制
- 温度限制
- 电池限制
- 成本限制
于是整个行业突然进入另一个阶段:
不再只是比谁模型更强,而是开始比谁更会"压缩模型"。
GGUF、GPTQ、AWQ、EXL2、MLX、VMLX,本质上都诞生于这个背景。
它们看起来像不同格式。其实背后是一场:
"让 AI 真正进入设备"的战争。
最早大规模爆发的,是 GPTQ。
很多人今天已经忘了,当年本地 AI 第一次真正开始流行,其实就是因为 GPTQ。
那时候大家第一次发现:
原来 4bit 量化之后,7B 模型真的能跑进消费级显卡。
这是一个非常关键的时间点。
因为在 GPTQ 之前,大模型对普通开发者来说还是"看得见但摸不着"的东西。显存门槛太高,部署太重。
GPTQ 做的事情其实很简单:它开始接受一个现实。
模型不一定非要保持原始精度。
于是它开始"压缩"。把 FP16 的权重,压成 INT4。
模型会损失一点精度。但换来的,是显存占用直接腰斩。很多人第一次在自己电脑上跑起 LLaMA、Vicuna,就是那个时期。
那时候 Hugging Face 上到处都是:
text
TheBloke/xxx-GPTQ
因为整个社区都在疯狂量化模型。现在回头看,会发现 GPTQ 的意义特别大。
它第一次让行业意识到:
"大模型真正的大规模普及,一定不是靠更大的 GPU,而是靠更高效的压缩。"
这个方向后来彻底改变了整个本地 AI 生态。
但很快,大家又发现了另一个问题。
模型虽然能跑了。可很多量化模型,开始变"笨"。
尤其是在:
- 数学
- 推理
- 长上下文
- 代码生成
这些场景里。于是 AWQ 又开始出现。AWQ 很有意思,它不像 GPTQ 那么强调"先压缩再说"。
它开始关注另一件事:
模型到底哪些地方最重要。
于是它会优先保护那些关键权重。你可以理解成:模型的大脑里,并不是每个神经元都同样重要。有些区域特别关键。
AWQ 会尽量保住这些核心部分的精度。
所以很多人第一次用 AWQ 的时候,会觉得一种很微妙的事情:
"怎么同样是 4bit,AWQ 好像更聪明一点?"
因为它确实在努力减少"智商损失"。这其实特别像视频压缩。有些压缩方式是暴力压缩。有些则会优先保留关键画面区域。
AWQ 更像后者。
然后 GGUF 又出现了。GGUF 的出现,其实意味着:
本地 AI 开始真正走向 CPU 世界。
这件事很关键。因为之前很多量化方案,本质上还是偏 GPU。
但现实是:不是每个人都有 4090。于是 llama.cpp 生态开始崛起。
GGUF 本质上是一种:
专门为本地推理优化的格式。
它非常强调:
- CPU 推理效率
- 内存映射
- 本地加载
- 跨平台兼容
然后特别神奇的事情发生了。Mac 用户开始爆炸式增长。因为 Apple Silicon 的统一内存架构,和 GGUF 特别搭。很多原本跑不动的模型,突然就"能用了"。于是后来你会看到:
- Ollama
- LM Studio
- Jan
- GPT4All
这些工具,几乎全部拥抱 GGUF。因为 GGUF 太适合:
"普通人的本地 AI" 了。
今天很多人第一次本地跑 Qwen、LLaMA、DeepSeek,其实底层跑的就是 GGUF。
GGUF 与本地 AI 爆发

但事情还没结束。因为后来大家又发现:模型不仅要能跑。
还得:
足够快。
尤其是 Agent、Copilot、代码补全这些场景开始爆发之后。因为 Agent 和聊天不一样。聊天稍微慢一点,用户还能接受。
但代码补全如果卡顿:体验会瞬间崩掉。于是 EXL2 开始走另一条路线。它开始极限追求:
- 推理吞吐
- KV Cache
- GPU kernel
- 长上下文速度
很多时候你会发现:EXL2 并不一定是兼容性最好的。但它经常是:
最快的那一批。
这其实说明整个行业开始进入另一个阶段:
大模型已经不只是"能用"。
而是开始追求:
- 延迟
- 实时性
- 交互速度
因为 AI 开始越来越像操作系统的一部分。
然后 Apple 又做了一件特别重要的事情。MLX 出现了。
MLX 的意义其实非常大。
因为它意味着:
Apple 正式下场做本地 AI 生态。
以前 Mac 跑 AI,总有点尴尬。CUDA 是 NVIDIA 的。很多推理框架优化也优先 NVIDIA。但 Apple Silicon 出现之后,一切开始变了。
统一内存架构特别适合本地模型。CPU、GPU、NPU 可以共享内存。
于是 MLX 开始出现。它整个方向都特别明确:
- 为 Apple 芯片优化
- Metal 加速
- 本地推理
- 小模型高速运行
后来你会看到:
- mlx-lm
- TurboQuant
- Qwen-MLX
- DeepSeek-MLX
开始越来越多。因为大家突然发现:
MacBook 真的开始能舒服地跑模型了。
而且不是"勉强能跑"。是真的:
很流畅。
然后再往后,事情开始变得更激进。VMLX 这类路线开始出现。GGUF 更偏:
"电脑本地运行"。
但 VMLX 已经开始往:
- 手机
- 边缘设备
- 机器人
- AR 眼镜
- IoT
这些方向走了。这时候行业开始思考的已经不是:
"模型能不能跑起来"。
而是:
- 功耗怎么办
- 电池怎么办
- 发热怎么办
- 实时性怎么办
于是模型继续疯狂压缩。甚至开始往:
- 2bit
- 动态量化
- 稀疏化
这些方向走。
因为 AI 真正的大规模爆发,一定不只发生在服务器。它最终会进入:
所有设备。
从云端 AI 到设备 AI

所以现在回头再看 GGUF、GPTQ、AWQ、EXL2、MLX、VMLX,会发现它们根本不是几个孤立格式。
它们其实是:
大模型从"实验室时代"走向"设备时代"的完整演化路径。
GPTQ 解决的是:"普通显卡终于能跑模型。"
AWQ 解决的是:"量化后别变傻。"
GGUF 解决的是:"没有 GPU 也能本地 AI。"
EXL2 解决的是:"推理速度必须足够快。"
MLX 解决的是:"Apple Silicon 如何成为 AI 设备。"
VMLX 解决的是:"模型怎么真正进入终端世界。"
它们看起来在卷格式。其实是在卷:
AI 如何真正进入现实世界。
而这件事,可能比模型排行榜本身更重要。因为未来真正决定 AI 普及速度的,很可能不是谁 benchmark 第一。
而是谁能:
- 更轻
- 更快
- 更省资源
- 更容易部署
谁就更有机会真正进入:
- 个人电脑
- 企业系统
- 手机
- 汽车
- 机器人
- 智能设备
大模型的下一个时代,可能不再只是"更强"。
而是:
"更能落地"。
关于作者
我是安东尼(tuaran.me),一名专注于前端与 AI 工程化的独立开发者。
我在建设 「博主联盟」 ------ 连接 AI 产品方与技术博主的品牌增长平台,帮 AI 产品精准触达开发者,也帮博主拿到推广资源与成长机会。
同时也在做 「前端下一步」 ------ 一个聚焦前端、AI Agent 与大模型的技术情报站,帮你从技术革新焦虑中解脱,得到技术转向判断。
希望本篇内容对你有所启发。