端侧推理 - 端侧推理技术,学习,经验文章

Mininglamp_2718

2 个月前

在Mac上跑大模型，MLX 不是终点当 Apple MLX 框架让开发者第一次在 MacBook 上流畅运行 7B 模型时，整个社区为之振奋。但冷静下来看数据：MLX 的 W4A16 量化方案在 prefill 阶段的计算密度远未触及 Apple Silicon 的理论上限。权重被压缩到了 4-bit，激活值却依然以 FP16 参与矩阵运算——这意味着 GPU 核心中一半以上的 ALU 周期被浪费在了不必要的精度上。