前几天刷掘金的时候,我看到一篇文章:《搞了一个免费 Z-Image-Turbo 给大家,可以无限文生图(附 Mac Windows 版教程&源码)》。
链接就是这篇: juejin.cn/post/758774...
我点进去之后,第一反应其实不是"这东西真强",而是"这玩意居然真能在 Mac 上跑?"
因为我之前对本地 AI 的理解,一直比较偏向 LLM 这一侧。像 Ollama 这种体验我已经很熟了,装完、拉模型、直接跑,逻辑非常顺。前阵子我本地还装过 gemma4:26b,所以我对"本地模型"这件事的默认期待,也慢慢变成了:最好开箱即用,最好命令简单,最好别让我先学一堆工作流。
但文生图、图转视频这条线,我之前其实还真折腾过,我自己做过视频分镜工作流,生成故事脚本分镜、生成固定人物分镜、生成3~5s视频分片(之前用的模型会有限制,生成过长视频某种层度上会不太准确)然后在将其合并。

一开始我先去试了 ComfyUI Desktop。结果折腾半天才发现,它更像是一个工作台或者说运行框架,不是那种像 Ollama 一样装完就能直接玩的产品。框架本身能跑,甚至连 Python 环境、虚拟环境、前端都能拉起来,但真到生成图片的时候,又会撞上另一个现实问题:你还得自己准备模型、LoRA、工作流,少一样都不行。
说白了,它不是不能用,而是不是我当下真正想找的那种东西。
我当时想要的是:
- 在本地跑
- 最好支持 Apple Silicon
- 最好有 WebUI
- 最好不是纯研究型项目
- 最好我今天晚上就能看到第一张图
然后我就想起掘金上那篇文章,干脆把作者的仓库 clone 到本地了:
ratszhu/Z-Image-Turbo-Carto
这个项目给我的第一感觉挺直接:它不是"画布工作流"路线,而是一套更像产品化小工具的东西。后端是 FastAPI,前端是 Vue 3,作者自己做了一层 WebUI,把参数、历史记录、预览这些都包起来了。至少从使用心智上,它比我刚折腾完的 ComfyUI 更接近"本地生图应用"这件事。
但 clone 下来之后,我也很快意识到一个问题:代码仓库不等于能直接跑。
真正开始动手的时候,我踩的坑和文章里写的那些,基本一一对上了。 生成的图片是拉花状,看的我密集恐惧症都犯了
第一个坑是 Python 版本。
我机器上默认 python3 已经是 3.14 了,但这个项目 README 里明确写了推荐 3.10 或 3.11。我最后是单独切到 Python 3.11 建了虚拟环境,把依赖重新装了一遍。这里还不是普通的 pip install 就结束,因为它依赖里有一个从 GitHub 安装的开发版 diffusers。环境没配对的话,后面根本不用谈生成。
第二个坑是模型文件。
这个项目本身不带模型,只是把跑模型的 WebUI 和推理逻辑准备好了。真正需要你自己补的是两样东西:
Tongyi-MAI/Z-Image-Turbo的完整模型目录Technically_Color_Z_Image_Turbo_v1_renderartist_2000.safetensors这个 LoRA 文件
我前面折腾 ComfyUI 的时候,其实就已经被"框架和模型不是一回事"这件事教育过一次了。到了这个项目,我算是彻底记住了:
代码只是壳。 模型才是食材。
少了模型,你看到的就只有一个漂亮但空的前端。
好在这次思路清楚很多。我把基础模型完整下载到本地之后,目录体积最后到了 31G。LoRA 也补上了。这里顺手说一句,如果你是第一次接触本地生图,真的要提前预留磁盘空间。我这次是看着目录一点点从几 GB 涨到三十多 GB,才真正有"这玩意不是玩具"的感觉。
第三个坑是启动成功,不代表立刻能生成。
模型文件齐了之后,程序第一次启动还要把整套 pipeline 加载进来。我的机器是 MacBook Pro + M1 Pro + 32GB 内存,走的是 MPS + bfloat16 这条路。第一次看到日志里开始加载 checkpoint shards 的时候,我其实还是有点怀疑的:会不会走着走着又炸了?会不会到最后显存或者内存还是扛不住?
但这次居然真稳稳走完了。
状态接口返回的是:
loaded: truedevice: mpsdtype: torch.bfloat16
看到这里,我心里基本就有数了:至少这项目不是"看起来能跑",而是真的跑起来了。
然后我就开始生成第一张图。
我没上来就跑特别复杂的提示词,先试了一个比较直给的人像场景:25 岁亚洲女性健身图,写实方向,现代健身房环境,正常肤感和灯光。
参数没有玩花活,基本按推荐来的:
- 步数:9
- CFG:0.0
- LoRA:开启
- 分辨率:768x1024
这张图最后实际耗时大概 208 秒,三分多钟。
说实话,等图的过程中我脑子里一直在对比 Ollama。
聊天模型的本地部署,今天已经被做得很像"装软件"了。你会自然以为生图模型也应该差不多。但真上手以后会发现,图像这边还没到那个阶段。你还是得认识模型目录、LoRA、精度、MPS、VAE 这些东西。只不过 Z-Image-Turbo-Carto 这类项目,已经帮你把最难看的那部分体验包起来了,让整个过程更像一个能用的本地产品,而不是纯工程实验。
最后图片真落到桌面上的时候,我的感受其实不是"哇这图绝了",而是另一种更朴素的爽感:
终于通了。
从"刷到一篇文章觉得有点意思",到中途怀疑 Mac 跑这玩意是不是又要翻车,再到最后真的在本地生成出第一张图,这中间最难的不是某一条命令,而是搞清楚一件事:你到底是在装一个模型,还是在装一个运行模型的框架。
我前面被 ComfyUI 绕进去过一次,后面才慢慢理顺:
ComfyUI更像工作流平台Z-Image-Turbo-Carto更像围绕特定模型做出来的一套 WebUI- 它们都不是模型本身
- 但后者对我这种"想快点看到结果"的人更友好
如果你也是 Apple Silicon 用户,尤其是 M1 Pro / M1 Max / M2 / M3 这一类机器,我的实际建议是:
第一,不要把"仓库 clone 下来"理解成"项目已经能跑"。 第二,优先先确认 Python 版本和模型资源,而不是先改代码。 第三,先接受一个现实:本地生图现在还没有 LLM 那么傻瓜化。 第四,如果你只是想先体验一把,优先选产品感更强的方案;如果你后面想深挖,再回头研究 ComfyUI 也不迟。
这次折腾下来,我对本地生图的看法也比之前清楚了很多。
以前我总觉得"本地模型"这四个字说出来,大家默认理解应该差不多。后来才发现,LLM 和文生图根本不是同一层难度。聊天模型今天已经有点像 Homebrew 时代了,很多东西一句命令就能装好。生图这边还更像前几年的 Linux 桌面:不是不能用,是能用和好用之间,差着很多工程细节。
但话说回来,也正因为这样,真折腾通一次,成就感会比我本地拉一个 ollama pull 强很多。
如果你问我,这项目值不值得试?
我的答案是:
如果你是 Mac 用户,机器配置还不错,又想体验一把"中文语境下、能在本地跑起来的 Z-Image WebUI",它值得试。
但前提是,你得接受它不是点一下就万事大吉的那种工具。
它更像一条已经有人替你踩过坑、但你还是要自己走一遍的路。
学习的路还很长,我想我会抱着玩的心态继续看下去,很多人都焦虑AI到来程序员失业或者怎么样,怎么说呢随遇而安吧,有些事是注定要有人做的,科技需要进步,人类文明也会继续往下发展。
后来才慢慢明白,为什么做技术做到某种程度喜欢看一些哲学类的书,也可能不只是做技术的而是对人生感悟到了某个"瓶颈"。
人生本来就是一场体验,祝各位"玩家"玩的开心。