能在手机本地跑的图像生成模型 Bonsai Image ，效果还不错

如下图所示，这些都是通过 Ternary Bonsai Image 4B 模型在手机上本地的你信吗？这就是今天要聊的一个图像生成模型，同时 Bonsai Image 4B 也是参数类别中首个可以直接在 iPhone 上运行的图像模型 。

实际上，Bonsai Image 就是把 FLUX.2 Klein 4B 的 diffusion transformer，压到 1-bit / ternary 低比特权重，让它能在 iPhone 上跑的图像生成模型：

保留 FLUX.2 Klein 4B 的架构，把 diffusion transformer 权重改成二值或三值表示，从而把显存/内存占用压下来。

对比上面的 Ternary Bonsai Image 4B ，下面这些是 1-bit Bonsai Image 4B 生成的，是的，Bonsai Image 4B 有两个版本：

1-bit Bonsai Image 4B ：权重只有 {−1, +1} 两种状态，再配合 FP16 group-wise scaling factor，官方说有效精度大概 1.125 bits/weight，核心是极限压缩，适合内存压力最大、模型大小敏感的场景
Ternary Bonsai Image 4B ：权重是 {−1, 0, +1} 三种状态，同样带 FP16 group-wise scaling factor，官方说有效精度大概 1.71 bits/weight，多了一个 0 状态，画质和 prompt fidelity 更接近原模型。

Model	Diffusion Transformer	Reduction vs FP16
FLUX.2 Klein 4B	7.75 GB	1.0x
1-bit Bonsai Image 4B	0.93 GB	8.3x
Ternary Bonsai Image 4B	1.21 GB	6.4x

4B 参数级别的图像 DiT，本来 FP16 diffusion transformer 要 7.75GB，现在被压到 0.93GB / 1.21GB 级别 ，当然，需要注意的是，它压的是 diffusion transformer 主体，不是整个 pipeline 都只有 1GB，官方说加上压缩 text encoder 和 FP16 VAE 后，Apple Silicon 部署包体是 3.42GB / 3.88GB，而原始 full precision FLUX.2 Klein 4B pipeline 是 15.97GB。

官方 demo 里默认 512×512 作为 fast preview，也给了 1024×1024、1248×832、832×1248、1408×704 等建议尺寸，要求尺寸是 32 的倍数：

目前官方提供的运行路径大概有几类：

Apple Silicon / iPhone / iPad / Mac ：在 Apple 设备上走 MLX low-bit 路径，支持 Apple Silicon iPhone、iPad、Mac
CUDA GPU ：Linux / Windows NVIDIA GPU 上走 Gemlite low-bit GEMM + HQQ / Triton Windows ，官方说 Windows 可以原生跑，不需要 WSL2
CLI / 本地 Web Studio / iOS App ： GitHub demo 支持 CLI 生成，也可以启动 FastAPI backend + Next.js frontend 的本地 studio，App Store 上也已经有 Bonsai Studio

PrismML 用三个互补的基准测试评估了 Bonsai Image 4B ，最终结果如下所示：

GenEval 用于评估对象组成和属性绑定
HPSv3 用于评估人类偏好和美学质量
DPG-Bench 用于评估密集提示跟踪和语义忠实度

Model	Diffusion Transformer Footprint (GB)	GenEval	HPSv3	DPG-Bench	Size reduction relative to FLUX.2 Klein 4B	Performance relative to FLUX.2 Klein 4B
1-bit Bonsai Image 4B	0.93	0.671	11.15	0.822	8.3x	88%
Ternary Bonsai Image 4B	1.21	0.723	12.22	0.851	6.4x	95%
FLUX.2 Klein 4B	7.75	0.819	12.84	0.853	1x	100%
SDXL	5.14	0.3	10.05	0.74	1.5x	67%
BK-SDM-Small	0.98	0.297	3.05	0.559	7.9x	42%
Stable Diffusion 1.5	1.72	0.396	4.2	0.601	4.5x	51%
PixArt-Σ XL 2	1.2	0.541	11.93	0.769	6.4x	83%

具体结果为：

Ternary Bonsai Image 4B 体积 1.21 GB，在 GenEval、HPSv3 和 DPG-Bench 测试里，保持了 FLUX.2 Klein 4B 95% 的精度，同时将扩散变换器的体积缩小了 6.4 倍。
1-bit Bonsai Image 4B 的 diffusion transformer 大小降低到 1 GB 以下，减少了 8.3 倍，同时在相同的三个评估保留了 FLUX.2 Klein 4B 的 88% 的准确度

这里 1-bit 是权重二值化，ternary 是三值化，理论上乘法可以大幅简化，内存带宽也大幅下降，但图像 diffusion transformer 对画质非常敏感，所以它保留了一小部分 FP16 projection layers，官方说约 5% precision-sensitive supporting tensors 仍保留 FP16，因此最终不是理论 16x，而是 8.3x / 6.4x 的整体 transformer footprint 压缩。

另外，文生图是多步 denoising，不是文本 LLM 那种 token 一个个吐，所以每一步都要调用 transformer，transformer 体积直接影响内存占用、带宽压力和速度，这里 Bonsai Image 4B 优化的就是 diffusion 推理里最频繁执行的部分。

但是如果只是把权重压成 1-bit，但没有 MLX / Gemlite 这种 low-bit kernel，实际运行时可能还要 unpack 成 FP16，那就只是省了硬盘空间，不一定省运行内存和速度。

所以官方这次同时提供 MLX 版本、Gemlite 版本、unpacked 版本、demo repo、iOS App，这说明它是模型 + kernel + deployment stack 一起做。

最后，官方也提供了对应的参考数据：

内存占用 ： 512×512 生成时，binary / ternary 的 mean-active memory 分别是 1.5GB / 1.96GB，而原始 FLUX.2 Klein 4B 是 11.74GB；1024×1024 时，binary / ternary 是 1.95GB / 2.38GB，原始模型是 14.39GB
速度： iPhone 17 Pro Max 生成 512×512 大约 9.4 秒，Mac M4 Pro 大约 6 秒
质量： Ternary 版本 benchmark 接近 FLUX.2 Klein 4B；1-bit 是 footprint 优先，画质和 prompt 跟随弱一些，容易丢细节

当然，他的核心是压缩模型，所以最多也就是用在一些头像、普通插画，简单草稿，风格化图片等场景，肯定是别想指望他能有个 banana 和 image2 那样的效果，那是拍马都追不上的。

所以，Bonsai Image 4B 的核心就是「本地甚至手机能跑的 AI 画图模型」，同时提供两个方案，其中 1-bit 更小更省，Ternary 更稳，它们还是 4B，只是参数被压缩存储，把原本很吃内存的 4B 图像生成 DiT 模型，用 1-bit / Ternary 的极低比特权重量化压到手机可运行，同时还保留大部分原模型画质和语义能力，这就是他的价值。

至少放 OpenClaw 或者 Hermes 里，作为一个本地多模态补充就还是可以的。

这是我本地自己生成的，效果还过得去，速度也还不错，用来说一个本地补充还是可以的：

链接

prismml.com/news/bonsai...

github.com/PrismML-Eng...