GGUF、GPTQ、AWQ、EXL2、MLX、VMLX...运行大模型,为什么会有这么多格式?

最早的大模型,只存在于超级 GPU 集群里。看 GPT-3、PaLM、Claude,感觉它们像一种遥远的云端能力,离普通开发者很远。你知道它很强,但你并不觉得自己真的能拥有它。

后来事情开始慢慢变化。越来越多人开始尝试本地跑模型。

一开始只是极客在折腾,后来变成开发者在折腾,再后来,甚至很多普通用户也开始在自己的电脑上下载模型、部署模型、测试模型。

这个过程中,一个特别有意思的现象出现了:

GGUF、GPTQ、AWQ、EXL2、MLX、VMLX 这些名字,开始越来越频繁地出现在社区里。

很多刚接触本地 AI 的人,会有一种很强的困惑感。

为什么会有这么多格式?

为什么大家总在换路线?

为什么 Hugging Face 上永远有一堆不同版本:

text 复制代码
Qwen2.5-7B-GPTQ
Qwen2.5-7B-AWQ
Qwen2.5-7B-GGUF
Qwen2.5-7B-EXL2
Qwen2.5-7B-MLX

看起来像整个行业都在重复造轮子。但如果你真的往底层看,会发现它们其实都在做同一件事:

想办法把大模型从"云端超级计算机",变成"普通设备也能运行"的东西。

而这件事,比很多人想象得更重要。


大模型轻量化生态

原来"大模型"并不是某种虚无缥缈的云服务。

它其实就是一个巨大到离谱的参数文件。

比如一个 7B 模型,原始 FP16 权重,可能十几个 GB。

70B 模型,直接上百 GB。

"这个东西到底怎么塞进普通设备里?"

现实世界不是论文。现实世界里有:

  • 显存限制
  • 内存限制
  • 功耗限制
  • 温度限制
  • 电池限制
  • 成本限制

于是整个行业突然进入另一个阶段:

不再只是比谁模型更强,而是开始比谁更会"压缩模型"。

GGUF、GPTQ、AWQ、EXL2、MLX、VMLX,本质上都诞生于这个背景。

它们看起来像不同格式。其实背后是一场:

"让 AI 真正进入设备"的战争。


最早大规模爆发的,是 GPTQ。

很多人今天已经忘了,当年本地 AI 第一次真正开始流行,其实就是因为 GPTQ。

那时候大家第一次发现:

原来 4bit 量化之后,7B 模型真的能跑进消费级显卡。

这是一个非常关键的时间点。

因为在 GPTQ 之前,大模型对普通开发者来说还是"看得见但摸不着"的东西。显存门槛太高,部署太重。

GPTQ 做的事情其实很简单:它开始接受一个现实。

模型不一定非要保持原始精度。

于是它开始"压缩"。把 FP16 的权重,压成 INT4。

模型会损失一点精度。但换来的,是显存占用直接腰斩。很多人第一次在自己电脑上跑起 LLaMA、Vicuna,就是那个时期。

那时候 Hugging Face 上到处都是:

text 复制代码
TheBloke/xxx-GPTQ

因为整个社区都在疯狂量化模型。现在回头看,会发现 GPTQ 的意义特别大。

它第一次让行业意识到:

"大模型真正的大规模普及,一定不是靠更大的 GPU,而是靠更高效的压缩。"

这个方向后来彻底改变了整个本地 AI 生态。


但很快,大家又发现了另一个问题。

模型虽然能跑了。可很多量化模型,开始变"笨"。

尤其是在:

  • 数学
  • 推理
  • 长上下文
  • 代码生成

这些场景里。于是 AWQ 又开始出现。AWQ 很有意思,它不像 GPTQ 那么强调"先压缩再说"。

它开始关注另一件事:

模型到底哪些地方最重要。

于是它会优先保护那些关键权重。你可以理解成:模型的大脑里,并不是每个神经元都同样重要。有些区域特别关键。

AWQ 会尽量保住这些核心部分的精度。

所以很多人第一次用 AWQ 的时候,会觉得一种很微妙的事情:

"怎么同样是 4bit,AWQ 好像更聪明一点?"

因为它确实在努力减少"智商损失"。这其实特别像视频压缩。有些压缩方式是暴力压缩。有些则会优先保留关键画面区域。

AWQ 更像后者。


然后 GGUF 又出现了。GGUF 的出现,其实意味着:

本地 AI 开始真正走向 CPU 世界。

这件事很关键。因为之前很多量化方案,本质上还是偏 GPU。

但现实是:不是每个人都有 4090。于是 llama.cpp 生态开始崛起。

GGUF 本质上是一种:

专门为本地推理优化的格式。

它非常强调:

  • CPU 推理效率
  • 内存映射
  • 本地加载
  • 跨平台兼容

然后特别神奇的事情发生了。Mac 用户开始爆炸式增长。因为 Apple Silicon 的统一内存架构,和 GGUF 特别搭。很多原本跑不动的模型,突然就"能用了"。于是后来你会看到:

  • Ollama
  • LM Studio
  • Jan
  • GPT4All

这些工具,几乎全部拥抱 GGUF。因为 GGUF 太适合:

"普通人的本地 AI" 了。

今天很多人第一次本地跑 Qwen、LLaMA、DeepSeek,其实底层跑的就是 GGUF。


GGUF 与本地 AI 爆发


但事情还没结束。因为后来大家又发现:模型不仅要能跑。

还得:

足够快。

尤其是 Agent、Copilot、代码补全这些场景开始爆发之后。因为 Agent 和聊天不一样。聊天稍微慢一点,用户还能接受。

但代码补全如果卡顿:体验会瞬间崩掉。于是 EXL2 开始走另一条路线。它开始极限追求:

  • 推理吞吐
  • KV Cache
  • GPU kernel
  • 长上下文速度

很多时候你会发现:EXL2 并不一定是兼容性最好的。但它经常是:

最快的那一批。

这其实说明整个行业开始进入另一个阶段:

大模型已经不只是"能用"。

而是开始追求:

  • 延迟
  • 实时性
  • 交互速度

因为 AI 开始越来越像操作系统的一部分。


然后 Apple 又做了一件特别重要的事情。MLX 出现了。

MLX 的意义其实非常大。

因为它意味着:

Apple 正式下场做本地 AI 生态。

以前 Mac 跑 AI,总有点尴尬。CUDA 是 NVIDIA 的。很多推理框架优化也优先 NVIDIA。但 Apple Silicon 出现之后,一切开始变了。

统一内存架构特别适合本地模型。CPU、GPU、NPU 可以共享内存。

于是 MLX 开始出现。它整个方向都特别明确:

  • 为 Apple 芯片优化
  • Metal 加速
  • 本地推理
  • 小模型高速运行

后来你会看到:

  • mlx-lm
  • TurboQuant
  • Qwen-MLX
  • DeepSeek-MLX

开始越来越多。因为大家突然发现:

MacBook 真的开始能舒服地跑模型了。

而且不是"勉强能跑"。是真的:

很流畅。


然后再往后,事情开始变得更激进。VMLX 这类路线开始出现。GGUF 更偏:

"电脑本地运行"。

但 VMLX 已经开始往:

  • 手机
  • 边缘设备
  • 机器人
  • AR 眼镜
  • IoT

这些方向走了。这时候行业开始思考的已经不是:

"模型能不能跑起来"。

而是:

  • 功耗怎么办
  • 电池怎么办
  • 发热怎么办
  • 实时性怎么办

于是模型继续疯狂压缩。甚至开始往:

  • 2bit
  • 动态量化
  • 稀疏化

这些方向走。

因为 AI 真正的大规模爆发,一定不只发生在服务器。它最终会进入:

所有设备。


从云端 AI 到设备 AI


所以现在回头再看 GGUF、GPTQ、AWQ、EXL2、MLX、VMLX,会发现它们根本不是几个孤立格式。

它们其实是:

大模型从"实验室时代"走向"设备时代"的完整演化路径。

GPTQ 解决的是:"普通显卡终于能跑模型。"

AWQ 解决的是:"量化后别变傻。"

GGUF 解决的是:"没有 GPU 也能本地 AI。"

EXL2 解决的是:"推理速度必须足够快。"

MLX 解决的是:"Apple Silicon 如何成为 AI 设备。"

VMLX 解决的是:"模型怎么真正进入终端世界。"

它们看起来在卷格式。其实是在卷:

AI 如何真正进入现实世界。

而这件事,可能比模型排行榜本身更重要。因为未来真正决定 AI 普及速度的,很可能不是谁 benchmark 第一。

而是谁能:

  • 更轻
  • 更快
  • 更省资源
  • 更容易部署

谁就更有机会真正进入:

  • 个人电脑
  • 企业系统
  • 手机
  • 汽车
  • 机器人
  • 智能设备

大模型的下一个时代,可能不再只是"更强"。

而是:

"更能落地"。

关于作者

我是安东尼(tuaran.me),一名专注于前端与 AI 工程化的独立开发者。

我在建设 「博主联盟」 ------ 连接 AI 产品方与技术博主的品牌增长平台,帮 AI 产品精准触达开发者,也帮博主拿到推广资源与成长机会。

同时也在做 「前端下一步」 ------ 一个聚焦前端、AI Agent 与大模型的技术情报站,帮你从技术革新焦虑中解脱,得到技术转向判断。

希望本篇内容对你有所启发。

相关推荐
新知图书1 小时前
市场分析报告自动化生成(使用千问)
人工智能·ai助手·千问·高效办公
无心水1 小时前
【Hermes:安全、权限与生产环境】38、Hermes Agent 安全四层纵深:最小权限原则从理论到落地的完全指南
人工智能·安全·mcp协议·openclaw·养龙虾·hermes·honcho
旦莫1 小时前
AI驱动的纯视觉自动化测试:知识库里应该积累什么知识内容
人工智能·python·测试开发·pytest·ai测试
dfsj660112 小时前
第四章:深度学习革命
人工智能·深度学习
张伯毅2 小时前
如何构建一个生产级 AI Agent CLI —— 以 Claude Code 架构探索
人工智能·架构
知识领航员2 小时前
蘑兔AI音乐深度实测:功能拆解、实测表现与适用场景
java·c语言·c++·人工智能·python·算法·github
cskywit2 小时前
【CVPR2024】用Diffusion“造”遥感分割数据:SatSynth论文解读
人工智能·深度学习·计算机视觉
virtaitech2 小时前
算力浪费与算力饥渴并存,OrionX社区版免费开放能否破解这一困局?
大数据·人工智能·gpu算力
火山引擎开发者社区2 小时前
业务团队也能“手搓”应用?火山 Supabase 助力猿辅导对话式 Agent 落地
人工智能