我用 Mac 折腾本地生图一整天，实现了本地文生图自由

前几天刷掘金的时候，我看到一篇文章：《搞了一个免费 Z-Image-Turbo 给大家，可以无限文生图（附 Mac Windows 版教程&源码）》。

我点进去之后，第一反应其实不是"这东西真强"，而是"这玩意居然真能在 Mac 上跑？"

因为我之前对本地 AI 的理解，一直比较偏向 LLM 这一侧。像 Ollama 这种体验我已经很熟了，装完、拉模型、直接跑，逻辑非常顺。前阵子我本地还装过 gemma4:26b，所以我对"本地模型"这件事的默认期待，也慢慢变成了：最好开箱即用，最好命令简单，最好别让我先学一堆工作流。

但文生图、图转视频这条线，我之前其实还真折腾过，我自己做过视频分镜工作流，生成故事脚本分镜、生成固定人物分镜、生成3~5s视频分片(之前用的模型会有限制，生成过长视频某种层度上会不太准确)然后在将其合并。

一开始我先去试了 ComfyUI Desktop。结果折腾半天才发现，它更像是一个工作台或者说运行框架，不是那种像 Ollama 一样装完就能直接玩的产品。框架本身能跑，甚至连 Python 环境、虚拟环境、前端都能拉起来，但真到生成图片的时候，又会撞上另一个现实问题：你还得自己准备模型、LoRA、工作流，少一样都不行。

说白了，它不是不能用，而是不是我当下真正想找的那种东西。

我当时想要的是：

在本地跑
最好支持 Apple Silicon
最好有 WebUI
最好不是纯研究型项目
最好我今天晚上就能看到第一张图

然后我就想起掘金上那篇文章，干脆把作者的仓库 clone 到本地了：

ratszhu/Z-Image-Turbo-Carto

这个项目给我的第一感觉挺直接：它不是"画布工作流"路线，而是一套更像产品化小工具的东西。后端是 FastAPI，前端是 Vue 3，作者自己做了一层 WebUI，把参数、历史记录、预览这些都包起来了。至少从使用心智上，它比我刚折腾完的 ComfyUI 更接近"本地生图应用"这件事。

但 clone 下来之后，我也很快意识到一个问题：代码仓库不等于能直接跑。

真正开始动手的时候，我踩的坑和文章里写的那些，基本一一对上了。生成的图片是拉花状，看的我密集恐惧症都犯了

第一个坑是 Python 版本。

我机器上默认 python3 已经是 3.14 了，但这个项目 README 里明确写了推荐 3.10 或 3.11。我最后是单独切到 Python 3.11 建了虚拟环境，把依赖重新装了一遍。这里还不是普通的 pip install 就结束，因为它依赖里有一个从 GitHub 安装的开发版 diffusers。环境没配对的话，后面根本不用谈生成。

第二个坑是模型文件。

这个项目本身不带模型，只是把跑模型的 WebUI 和推理逻辑准备好了。真正需要你自己补的是两样东西：

Tongyi-MAI/Z-Image-Turbo 的完整模型目录
Technically_Color_Z_Image_Turbo_v1_renderartist_2000.safetensors 这个 LoRA 文件

我前面折腾 ComfyUI 的时候，其实就已经被"框架和模型不是一回事"这件事教育过一次了。到了这个项目，我算是彻底记住了：

代码只是壳。模型才是食材。

少了模型，你看到的就只有一个漂亮但空的前端。

好在这次思路清楚很多。我把基础模型完整下载到本地之后，目录体积最后到了 31G。LoRA 也补上了。这里顺手说一句，如果你是第一次接触本地生图，真的要提前预留磁盘空间。我这次是看着目录一点点从几 GB 涨到三十多 GB，才真正有"这玩意不是玩具"的感觉。

第三个坑是启动成功，不代表立刻能生成。

模型文件齐了之后，程序第一次启动还要把整套 pipeline 加载进来。我的机器是 MacBook Pro + M1 Pro + 32GB 内存，走的是 MPS + bfloat16 这条路。第一次看到日志里开始加载 checkpoint shards 的时候，我其实还是有点怀疑的：会不会走着走着又炸了？会不会到最后显存或者内存还是扛不住？

但这次居然真稳稳走完了。

状态接口返回的是：

loaded: true
device: mps
dtype: torch.bfloat16

看到这里，我心里基本就有数了：至少这项目不是"看起来能跑"，而是真的跑起来了。

然后我就开始生成第一张图。

我没上来就跑特别复杂的提示词，先试了一个比较直给的人像场景：25 岁亚洲女性健身图，写实方向，现代健身房环境，正常肤感和灯光。

参数没有玩花活，基本按推荐来的：

步数：9
CFG：0.0
LoRA：开启
分辨率：768x1024

这张图最后实际耗时大概 208 秒，三分多钟。

说实话，等图的过程中我脑子里一直在对比 Ollama。

聊天模型的本地部署，今天已经被做得很像"装软件"了。你会自然以为生图模型也应该差不多。但真上手以后会发现，图像这边还没到那个阶段。你还是得认识模型目录、LoRA、精度、MPS、VAE 这些东西。只不过 Z-Image-Turbo-Carto 这类项目，已经帮你把最难看的那部分体验包起来了，让整个过程更像一个能用的本地产品，而不是纯工程实验。

最后图片真落到桌面上的时候，我的感受其实不是"哇这图绝了"，而是另一种更朴素的爽感：

终于通了。

从"刷到一篇文章觉得有点意思"，到中途怀疑 Mac 跑这玩意是不是又要翻车，再到最后真的在本地生成出第一张图，这中间最难的不是某一条命令，而是搞清楚一件事：你到底是在装一个模型，还是在装一个运行模型的框架。

我前面被 ComfyUI 绕进去过一次，后面才慢慢理顺：

ComfyUI 更像工作流平台
Z-Image-Turbo-Carto 更像围绕特定模型做出来的一套 WebUI
它们都不是模型本身
但后者对我这种"想快点看到结果"的人更友好

如果你也是 Apple Silicon 用户，尤其是 M1 Pro / M1 Max / M2 / M3 这一类机器，我的实际建议是：

第一，不要把"仓库 clone 下来"理解成"项目已经能跑"。第二，优先先确认 Python 版本和模型资源，而不是先改代码。第三，先接受一个现实：本地生图现在还没有 LLM 那么傻瓜化。第四，如果你只是想先体验一把，优先选产品感更强的方案；如果你后面想深挖，再回头研究 ComfyUI 也不迟。

这次折腾下来，我对本地生图的看法也比之前清楚了很多。

以前我总觉得"本地模型"这四个字说出来，大家默认理解应该差不多。后来才发现，LLM 和文生图根本不是同一层难度。聊天模型今天已经有点像 Homebrew 时代了，很多东西一句命令就能装好。生图这边还更像前几年的 Linux 桌面：不是不能用，是能用和好用之间，差着很多工程细节。

但话说回来，也正因为这样，真折腾通一次，成就感会比我本地拉一个 ollama pull 强很多。

如果你问我，这项目值不值得试？

我的答案是：

如果你是 Mac 用户，机器配置还不错，又想体验一把"中文语境下、能在本地跑起来的 Z-Image WebUI"，它值得试。

但前提是，你得接受它不是点一下就万事大吉的那种工具。

它更像一条已经有人替你踩过坑、但你还是要自己走一遍的路。

学习的路还很长，我想我会抱着玩的心态继续看下去，很多人都焦虑AI到来程序员失业或者怎么样，怎么说呢随遇而安吧，有些事是注定要有人做的，科技需要进步，人类文明也会继续往下发展。

后来才慢慢明白，为什么做技术做到某种程度喜欢看一些哲学类的书，也可能不只是做技术的而是对人生感悟到了某个"瓶颈"。

人生本来就是一场体验，祝各位"玩家"玩的开心。