告别繁琐部署:TRAE SOLO 帮我一键跑通 Z-Image 模型

最近,通义在"万相"系列之外,又放出了一个新的图像生成模型Z-Image,在 H800 GPU 上可实现亚秒级推理延迟,而在 16G 显存的消费级显卡上也可流畅运行!这不得抓紧时间试试。

之前每次尝试新模型都要查文档、配环境、装依赖、调版本,各种问题来来回回花好久。

幸好前几天,我们已经基于 TRAE SOLO 尝试过 AI 自主搭建模型服务。

给 TRAE SOLO 一台服务器,它能干什么? - 掘金

今天,我们再拿 Z-Image 试试效果。

Z-Image

先来简单了解下 Z-Image

Z-Image 采用了一种可扩展的单流 DiT(S3-DiT)架构。在这种设置中,文本、视觉语义标记和图像VAE标记在序列级别上连接起来,作为统一的输入流,与双流方法相比,最大化了参数效率。

根据基于 Elo 的人类偏好评估(在AI Arena上),Z-Image-Turbo 相对于其他领先模型表现出极高的竞争力,同时在开源模型中取得了最先进的结果。

该系列共包含 3 个模型:

  • Z-Image-TurboZ-Image 的精简版,仅用 8 NFEs(函数评估次数)就能与领先的竞争对手匹敌或超越。
  • Z-Image-Base :非精简的基础模型,旨在解锁社区驱动的微调和自定义开发的全部潜力。当前尚未发布
  • Z-Image-Edit :专门针对图像编辑任务进行微调的 Z-Image 变体。支持创意的图像到图像生成,并具有令人印象深刻的指令遵循能力,允许基于自然语言提示进行精确编辑。当前尚未发布

前期准备

开始搭建前,需要准备好以下内容,如有疑问,可以看之前的分享。

  1. 准备好 1 个没有什么重要内容的服务器,可以是云服务器、算力租用,或者自行搭建的 docker 服务。
  1. TRAE SOLO 模式可用,IDE 模式理论上也可以,但是需要人一直盯着,并且出现问题还需要人工干涉,失去了 AI 自主搭建的优势。

  2. 使用 TRAE 远程连接上服务器。

实操记录

今天的实操场景,我们就直接选择糖果包装生成

环境搭建及初版demo

指令

大家可以直接参考下方完整指令。

  • Z-Image 的参考文档。
  • 任务目标:安装并实现糖果包装demo。
  • demo相关要求,比如图片生成维护,方便查找。
  • 其他要求
arduino 复制代码
参考文档 https://www.modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo/summary?version=master
帮我完成z-image-turbo的安装,并实现demo编写。
该demo帮我实现一个儿童风的糖果包装设计,图片生成位置设置为/root/z-image/下。
如果有临时文件生成,统一设置为/root/z-image/tmp/下。
云服务器文档:https://www.gongjiyun.com/docs/server/introduction/rznmwsy13i4a8yktuyycoxyinmg/

过程

直接参考文档步骤进行安装,过程中出现问题或者错误会自动获取终端信息进行修复,非常方便。

甚至还给出后续手动执行的命令,以及中间产物的位置。

结果

下面是生成的 demo 脚本,可以看到采用的 Z-Image 模型。

下面是生成的 demo 提示词。

下面是同步生成的包装图片。

整体流程没问题,喝杯茶的功夫,环境就已经配好了。 但我想要的是单粒糖果的包装,两头拧起来的那种效果。我们再修改下提示词。

单粒糖纸包装生成优化

这里我们直接手动更改脚本中的提示词。

修改位置上一轮对话也已经给出。

指令

css 复制代码
单粒牛奶硬糖,经典两端扭结包装,儿童风,奶白色为主色调,点缀浅棕色小奶牛斑点,包装正面印 Q 版微笑小奶牛(圆眼睛、短耳朵、脖子挂迷你奶瓶),半透明包装纸隐约透出米白色奶糖本体(糖体光滑有光泽),扭结处颜色为淡奶油色,包装纸呈柔和哑光质感,带轻微奶泡珠光,侧面印微型奶滴图案,正面下方用圆润卡通字体写 "香浓奶糖",整体无尖锐棱角,色彩柔和不刺眼,暖光照射,8k 高清,细节丰富,适合 3-10 岁儿童

结果

下面是更换指令后的生成结果,整体还可以。

但是物品的摆放角度和扭转等物理现象还是稍微有些不足。

结语

整个过程相当轻松,一共花费了 1 个小时多点。

  • 看到资讯
  • 找到官网并浏览文档
  • 建立并连接云服务器
  • 输入指令
  • 等待并验证

指令设计和研究方向都是我们确定的,最终结果也是我们验收的,但安装、配置、调试的过程全部交由 AI 一口气完成,轻松惬意。

这才是我理想的 AI 协同模式!

相关推荐
NAGNIP9 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab11 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab11 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP14 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年14 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼15 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS15 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区16 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈16 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
豆包MarsCode16 小时前
一文快速理解 Spec 模式
trae