告别繁琐部署:TRAE SOLO 帮我一键跑通 Z-Image 模型

最近,通义在"万相"系列之外,又放出了一个新的图像生成模型Z-Image,在 H800 GPU 上可实现亚秒级推理延迟,而在 16G 显存的消费级显卡上也可流畅运行!这不得抓紧时间试试。

之前每次尝试新模型都要查文档、配环境、装依赖、调版本,各种问题来来回回花好久。

幸好前几天,我们已经基于 TRAE SOLO 尝试过 AI 自主搭建模型服务。

给 TRAE SOLO 一台服务器,它能干什么? - 掘金

今天,我们再拿 Z-Image 试试效果。

Z-Image

先来简单了解下 Z-Image

Z-Image 采用了一种可扩展的单流 DiT(S3-DiT)架构。在这种设置中,文本、视觉语义标记和图像VAE标记在序列级别上连接起来,作为统一的输入流,与双流方法相比,最大化了参数效率。

根据基于 Elo 的人类偏好评估(在AI Arena上),Z-Image-Turbo 相对于其他领先模型表现出极高的竞争力,同时在开源模型中取得了最先进的结果。

该系列共包含 3 个模型:

  • Z-Image-TurboZ-Image 的精简版,仅用 8 NFEs(函数评估次数)就能与领先的竞争对手匹敌或超越。
  • Z-Image-Base :非精简的基础模型,旨在解锁社区驱动的微调和自定义开发的全部潜力。当前尚未发布
  • Z-Image-Edit :专门针对图像编辑任务进行微调的 Z-Image 变体。支持创意的图像到图像生成,并具有令人印象深刻的指令遵循能力,允许基于自然语言提示进行精确编辑。当前尚未发布

前期准备

开始搭建前,需要准备好以下内容,如有疑问,可以看之前的分享。

  1. 准备好 1 个没有什么重要内容的服务器,可以是云服务器、算力租用,或者自行搭建的 docker 服务。
  1. TRAE SOLO 模式可用,IDE 模式理论上也可以,但是需要人一直盯着,并且出现问题还需要人工干涉,失去了 AI 自主搭建的优势。

  2. 使用 TRAE 远程连接上服务器。

实操记录

今天的实操场景,我们就直接选择糖果包装生成

环境搭建及初版demo

指令

大家可以直接参考下方完整指令。

  • Z-Image 的参考文档。
  • 任务目标:安装并实现糖果包装demo。
  • demo相关要求,比如图片生成维护,方便查找。
  • 其他要求
arduino 复制代码
参考文档 https://www.modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo/summary?version=master
帮我完成z-image-turbo的安装,并实现demo编写。
该demo帮我实现一个儿童风的糖果包装设计,图片生成位置设置为/root/z-image/下。
如果有临时文件生成,统一设置为/root/z-image/tmp/下。
云服务器文档:https://www.gongjiyun.com/docs/server/introduction/rznmwsy13i4a8yktuyycoxyinmg/

过程

直接参考文档步骤进行安装,过程中出现问题或者错误会自动获取终端信息进行修复,非常方便。

甚至还给出后续手动执行的命令,以及中间产物的位置。

结果

下面是生成的 demo 脚本,可以看到采用的 Z-Image 模型。

下面是生成的 demo 提示词。

下面是同步生成的包装图片。

整体流程没问题,喝杯茶的功夫,环境就已经配好了。 但我想要的是单粒糖果的包装,两头拧起来的那种效果。我们再修改下提示词。

单粒糖纸包装生成优化

这里我们直接手动更改脚本中的提示词。

修改位置上一轮对话也已经给出。

指令

css 复制代码
单粒牛奶硬糖,经典两端扭结包装,儿童风,奶白色为主色调,点缀浅棕色小奶牛斑点,包装正面印 Q 版微笑小奶牛(圆眼睛、短耳朵、脖子挂迷你奶瓶),半透明包装纸隐约透出米白色奶糖本体(糖体光滑有光泽),扭结处颜色为淡奶油色,包装纸呈柔和哑光质感,带轻微奶泡珠光,侧面印微型奶滴图案,正面下方用圆润卡通字体写 "香浓奶糖",整体无尖锐棱角,色彩柔和不刺眼,暖光照射,8k 高清,细节丰富,适合 3-10 岁儿童

结果

下面是更换指令后的生成结果,整体还可以。

但是物品的摆放角度和扭转等物理现象还是稍微有些不足。

结语

整个过程相当轻松,一共花费了 1 个小时多点。

  • 看到资讯
  • 找到官网并浏览文档
  • 建立并连接云服务器
  • 输入指令
  • 等待并验证

指令设计和研究方向都是我们确定的,最终结果也是我们验收的,但安装、配置、调试的过程全部交由 AI 一口气完成,轻松惬意。

这才是我理想的 AI 协同模式!

相关推荐
小鸡吃米…4 分钟前
机器学习 - K - 中心聚类
人工智能·机器学习·聚类
好奇龙猫42 分钟前
【AI学习-comfyUI学习-第三十节-第三十一节-FLUX-SD放大工作流+FLUX图生图工作流-各个部分学习】
人工智能·学习
沈浩(种子思维作者)1 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
minhuan1 小时前
大模型应用:大模型越大越好?模型参数量与效果的边际效益分析.51
人工智能·大模型参数评估·边际效益分析·大模型参数选择
Cherry的跨界思维1 小时前
28、AI测试环境搭建与全栈工具实战:从本地到云平台的完整指南
java·人工智能·vue3·ai测试·ai全栈·测试全栈·ai测试全栈
MM_MS1 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
ASF1231415sd1 小时前
【基于YOLOv10n-CSP-PTB的大豆花朵检测与识别系统详解】
人工智能·yolo·目标跟踪
水如烟2 小时前
孤能子视角:“意识“的阶段性回顾,“感质“假说
人工智能
Carl_奕然2 小时前
【数据挖掘】数据挖掘必会技能之:A/B测试
人工智能·python·数据挖掘·数据分析
旅途中的宽~2 小时前
《European Radiology》:2024血管瘤分割—基于MRI T1序列的分割算法
人工智能·计算机视觉·mri·sci一区top·血管瘤·t1