dify案例分享-免费体验Dify + Qwen-Image-2512 文生图图生图全流程

1.前言

在AI图像生成领域快速迭代的今天,如何用低成本、低门槛的方式体验最新的文生图、图生图技术,成为了小伙伴们关注的焦点。传统的AI绘画工具要么需要复杂的本地部署、要么需要高昂的API调用费用,普通用户想要"玩转"AI绘画往往望而却步。

好家伙!阿里通义千问团队这2天又放大招了!继8月发布Qwen-Image基础模型后,12月又重磅推出了Qwen-Image-2512 文生图模型,同时11月发布的Qwen-Image-Edit-2511图生图模型也正式上线魔搭社区。这两款模型在AI Arena超过1万局的用户盲测中,开源模型表现最优,甚至与多款闭源模型对比中依然展现出显著竞争力!

之前给大家做过一个基于Qwen-Image文生图 和图生图的dify插件,今天上午也升级了。另外也使用最新的Qwen-Image-2512验证测试了一下。今天我们就在Dify平台手把手教大家部署这个AI绘画工作流,体验和感受一下这两款最新模型的强大能力。话不多说,我们开始吧!

2.模型介绍

在正式开始工作流制作之前,我们先来了解一下这次更新的两款重磅模型。

Qwen-Image-2512(文生图模型)

Qwen-Image-2512是阿里巴巴通义千问团队于2025年12月发布的最新文生图模型,相较于8月发布的Qwen-Image基础模型,本次聚焦于三大核心能力的飞跃式提升:

✨ 三大核心升级

升级项 能力描述 效果说明
更真实的人物质感 精准刻画皮肤纹理、发丝走向、表情神态 告别塑料脸、模糊五官,还能理解"微微前倾"等语义细节
更细腻的自然纹理 水流、苔藓、动物毛发等细节刻画 金毛犬的绒毛、盘羊的粗硬皮毛,达到"显微镜级别"的细腻度
更复杂的文字渲染 精准排版时间轴、技术图表、多格漫画 图文混合不再是痛点,中文渲染能力业界领先

更真实的人物质感

更细腻的自然纹理

更复杂的文字渲染

🏆 性能表现

在AI Arena超过1万局的用户盲测中,Qwen-Image-2512在开源模型中表现最优,并在与多款闭源模型的对比中依然展现出显著竞争力。

Qwen-Image-Edit-2511(图生图模型)

Qwen-Image-Edit-2511是2025年11月发布的增强版图像编辑模型,是Qwen-Image-Edit-2509的升级版本,专注于高级图像编辑任务。

✨ 核心特点

特性 说明
一致性显著提升 减轻图像漂移,角色身份保持,风格一致性更强
多人一致性增强 两张不同人物图像高保真融合,实现"隔空合照"
LoRA原生集成 照明增强、新视角生成开箱即用,无需额外加载权重
工业设计能力 批量产品设计、材质替换、高保真渲染
几何推理增强 自动生成辅助构造线,适用于建筑设计、工程图纸

🎯 应用场景

  • 创意摄影: 隔空合照、人像创意编辑、多人合成
  • 电商产品: 产品场景变换、材质替换、批量生成
  • 工业设计: 零部件材质调整、设计方案对比
  • 内容创作: 社交媒体、营销物料、风格化处理

版本对比

对比项 旧版Qwen-Image 新版Qwen-Image-2512 提升幅度
人物质感 存在AI感 接近真实摄影 ⬆️⬆️ 显著提升
自然纹理 细节一般 显微镜级别 ⬆️⬆️ 显著提升
文字渲染 中文较弱 复杂排版支持 ⬆️⬆️ 显著提升
图生图 不支持 Qwen-Image-Edit-2511 🆕 全新功能

之前给大家介绍过dify插件开发,其中使用就是阿里Qwen-Image模型。当时实现的是文本生成模型。前段时间我也把这个插件上传到dify插件市场了。

最近有小伙伴给我反馈这个插件不支持图片修改功能,同时官方也发布了最新的Qwen-Image-2512和Qwen-Image-Edit-2511模型。于是我更新了这个插件,目前已经支持最新的文生图和图生图模型了。工作流效果如下:

那么这个工作流是如何制作的呢?下面给大家简单介绍一下。

3.工作流制作

插件安装

制作这个工具流之前我们先去dify插件市场查找这个插件。搜索关键字"Text2image" 新版本插件我已经提交了,注意最新版本是0.0.4

如果没有的可以在文本找一下离线插件。

搜到到这个插件后安装即可。

安装或者更新这插件后,我们可以在魔搭API进行相关授权。

魔搭API配置

去魔搭社区官方网站找到你的API

把这个值复制到刚才的插件api key输入区域

这样我们就完成模型授权。

接下来我们给大家介绍一下工作流详细步骤。

开始节点

这个开始节点有2个部分组成:type类型 和 picture 图片

type类型是一个下拉选项,主要是提供用户的文生图、图生图选择项

picture 图片是由单个文件图片构成

以上我们就完成了开始节点的配置。

条件分支

条件分支这里我们可以实现文生图和图生图的判断。我们可以设置如下信息

文生图(Qwen-Image-2512)

这个地方就是我们可以从添加节点-选择我们上面安装好的插件。

我们选中文生图插件。

提示词部分我们直接获取sys.query

模型这里我们选择最新的Qwen-Image-2512(相比旧版Qwen-Image,新版在人物质感、自然纹理、文字渲染方面有显著提升)

图生图(Qwen-Image-Edit-2511)

图生图和上面文生图的操作类似。从添加节点 - 工具选择 图生图

它的配置多了一个图像URL选择,模型选择最新的Qwen-Image-Edit-2511(支持一致性保持、多人融合、LoRA原生集成等高级功能)

直接回复

这个直接回复比较简单,就是把文生图和图生视频的信息返回

以上我们就配置了最简单的基于Qwen-Image-2512和Qwen-Image-Edit-2511插件的文生图、图生图功能了。

有的小伙伴说这个文生图的提示词太简单了,能不能给我扩写成一个专业的基于Qwen-Image的提示词呢?当然这个也是可以的。

提示词生成

我这里有一份Qwen-Image提示词指南

arduino 复制代码
核心要点:
抓重点:主体 + 背景 + 细节,不要跑题
补特征:人要写清姿态表情,物要写清材质颜色
写文字:用引号标明,还要写清位置和字体
定风格:纪实/国风/童趣,风格统一更稳定
理空间:左上右下,前后层级要讲明
正向写:别说"不要",直接说你要什么
去赘余:画面里没的东西,就别写

万能模版骨架:
[主体] + [环境/背景] + [构图/镜头] + [风格/质感] + [光线/色调] + [空间/关系] + [需生成文字]
示例:一只黑色猫咪,坐在木质桌上,中景拍摄,写实摄影风格,午后柔光,猫在左下角,"Good Day"文字写在右上角,手写体、浅绿色

小技巧:
把否定词改成正向表达:
"不要复杂背景" → "纯色背景"
"不要太暗" → "整体偏明亮"
"不要拥挤" → "留白充足"

请基于以上内容编写一个编写提示词,使用LangGPT提示词(prompt)语法编写一个Qwen-Image文生图提示词专家。

我们把上面的提示词发给AI让它给我们生成出来

AI很快就帮我生成好提示词了。

LLM大语言模型

我们把上面生成的提示词在上面制作好的工作流增加一个LLM大语言优化后的节点,这样我们简单的提示词就通过Qwen-Image文生图提示词专家润色了生成更加专业的提示词了。

模型这里我们选择魔搭社区提供的免费的qwen3-Coder-30B-A3B-Instruct模型

系统提示词

json 复制代码
# Role: Qwen-Image文生图提示词专家

## Profile
- Author: 周辉
- Version: 1.0
- Language: 中文
- Description: 专业的Qwen-Image文生图提示词编写专家,擅长根据用户需求生成高质量、结构化的图像生成提示词

## Skills
1. 熟练掌握Qwen-Image模型的提示词规则和特点
2. 能够将用户模糊描述转化为精确的结构化提示词
3. 擅长运用万能模版骨架进行提示词构建
4. 精通正向表达技巧,避免否定词使用
5. 熟悉各种艺术风格和拍摄技法的专业术语

## Rules
1. 严格遵循"抓重点、补特征、写文字、定风格、理空间、正向写、去赘余"七大核心要点
2. 必须使用万能模版骨架:[主体] + [环境/背景] + [构图/镜头] + [风格/质感] + [光线/色调] + [空间/关系] + [需生成文字]
3. 所有否定表达必须转换为正向表达
4. 人物描述必须包含姿态和表情
5. 物体描述必须包含材质和颜色
6. 文字内容用引号标明,并说明位置和字体
7. 空间关系要明确(左上右下、前后层级)
8. 避免描述画面中不存在的元素

## Workflow
1. **需求分析**:理解用户的图像需求,识别关键元素
2. **要素提取**:从用户描述中提取主体、背景、风格等核心要素
3. **结构构建**:按照万能模版骨架组织提示词结构
4. **正向优化**:将所有否定表达转换为正向描述
5. **细节补充**:为人物补充姿态表情,为物体补充材质颜色
6. **质量检查**:确保提示词符合七大核心要点

## OutputFormat
【提示词】:[按万能模版骨架生成的完整提示词]

【解析说明】:
- 主体:[说明主体描述要点]
- 环境背景:[说明背景设定]
- 构图镜头:[说明拍摄角度和构图]
- 风格质感:[说明艺术风格]
- 光线色调:[说明光影效果]
- 空间关系:[说明元素位置布局]
- 文字要求:[如有文字需求,说明内容和样式]

## Example
用户需求:我想要一张可爱的小女孩在花园里的照片

【提示词】:一位5岁小女孩,扎着双马尾,灿烂笑容,穿粉色连衣裙,站在五彩花园中,中景竖构图,童趣插画风格,温暖金色阳光,女孩居中偏右,花朵环绕四周,"Happy Garden"文字位于左上角,手写体、浅蓝色

【解析说明】:
- 主体:5岁小女孩,补充了发型、表情、服装等特征
- 环境背景:五彩花园,明确了背景元素
- 构图镜头:中景竖构图,适合人物拍摄
- 风格质感:童趣插画风格,符合主题调性
- 光线色调:温暖金色阳光,营造愉悦氛围
- 空间关系:女孩居中偏右,花朵环绕,层次清晰
- 文字要求:指定了文字内容、位置、字体和颜色

## Initialization
你好!我是Qwen-Image文生图提示词专家。我将根据Qwen-Image的特点和最佳实践,为您生成高质量的文生图提示词。

请告诉我您想要生成什么样的图像,我会运用专业的结构化方法,为您量身定制精准的提示词。无论是人物、风景、静物还是抽象艺术,我都能帮您转化为Qwen-Image能够完美理解的描述语言。

用户提示词

shell 复制代码
请根据用户输入的{{#sys.query#}}扩展这个文生图提示词

添加后的LLM大语言模型后,text-to-image这里输入提示词需要修改成从llm大语言模型输入

以上我们就通过LLM大语言模型扩展了文生图提示词。

4.验证及测试

文生图测试

图生图测试

【提示词】:猴子头上带个紧箍咒

Qwen-Image-2512 新特性体验

Qwen-Image-2512在人物质感方面有了显著提升,我们来体验一下:

人物质感测试提示词示例

复制代码
一位中国女性大学生,性别女,年龄约20岁左右,超短发发型略带柔和文艺感,发丝自然垂落遮住部分脸颊,整体风格偏向假小子(tomboy)气质。她肤色冷白,五官清秀,表情略显羞涩又带着一丝拽劲,嘴角微微歪起,流露出痞帅又青春的神态。身穿一字领露肩短袖上衣,露出一侧肩膀,身材匀称。画面为近景自拍构图,人物占据主体位置,背景清晰可见宿舍环境。

自然纹理测试提示词示例

复制代码
一只花猫的超写实特写肖像,置于柔和自然日光下的户外场景中;毛发细节极为精细 ------ 根根分明,橘白黑三色的斑纹自然交错,色泽从暖橘色到纯净白色再到深邃黑色过渡得丝滑流畅,微光在毛尖轻盈跳跃,微风拂过带来轻微蓬松感;底层绒毛柔软浓密,外层护毛修长分明,层次清晰可见;双眼清澈湿润、富有情感,像透亮的琉璃珠子,鼻头微润并带有细腻的高光反光。

新版模型在这些场景下的表现确实令人惊艳,皮肤纹理、发丝走向、动物毛发都能精准刻画到"显微镜级别"。

体验地址

工作流地址:dify.duckcloud.fun/chat/rk31bv...

备用地址:http://14.103.204.132/chat/rk31bvsH0gWasqDW

插件下载

离线安装包: qwen_text2image_0.0.4.difypkg

通过网盘分享的文件:qwen_text2image_0.0.4.difypkg 链接: pan.baidu.com/s/1EK5mJxJA... 提取码: segu

5.总结

今天主要带大家了解并实现了基于Dify工作流构建Qwen-Image-2512文生图、Qwen-Image-Edit-2511图生图功能的完整流程,该流程以阿里巴巴通义千问团队最新发布的"Qwen-Image-2512 + Qwen-Image-Edit-2511"双模型为核心,结合Dify平台灵活的工作流节点配置(如条件分支、插件调用、LLM提示词优化等),形成了一套覆盖文本生成图像、图像编辑修改的全场景AI绘画解决方案。

通过这套实践方案,小伙伴们能够低成本体验Qwen-Image最新版本的强大生成能力------借助魔搭社区提供的免费模型接口和Dify平台的便捷配置(包括插件安装、API授权、工作流搭建),无需复杂的本地部署和高昂的API费用,就能快速实现文生图的精准生成和图生图的风格统一修改(如本次演示的"螃蟹打架+乌龟裁判"案例)。无论是人物质感刻画、自然纹理渲染,还是复杂文字排版、多人场景融合,都能通过Qwen-Image-2512和Qwen-Image-Edit-2511配合LLM提示词优化完成,极大降低了AI图像创作的使用门槛。在实际应用中,该工作流不仅支持Qwen-Image-2512在人物皮肤纹理、发丝走向、动物毛发等细节的"显微镜级别"刻画,还支持Qwen-Image-Edit-2511的一致性保持、多人融合、LoRA原生集成等高级功能,适配性远优于传统的单一文生图方案;特别是通过LLM大语言模型对提示词进行专业化扩写,有效解决了普通用户调用AI绘画时提示词不够专业、生成效果不理想的难题。

同时,方案具备良好的扩展性------小伙伴们可以基于此扩展更多实用场景,如自媒体的创意素材生成、电商产品的场景变换与材质替换、工业设计的批量渲染、建筑设计的效果图展示等,进一步发挥Qwen-Image系列模型在内容创作、电商运营、工业设计、教育培训等领域的应用价值。感兴趣的小伙伴可以按照文中提供的步骤进行实践,根据实际业务需求调整提示词和工作流配置。今天的分享就到这里结束了,我们下一篇文章见。

相关推荐
恋猫de小郭10 小时前
Flutter Zero 是什么?它的出现有什么意义?为什么你需要了解下?
android·前端·flutter
崔庆才丨静觅16 小时前
hCaptcha 验证码图像识别 API 对接教程
前端
passerby606117 小时前
完成前端时间处理的另一块版图
前端·github·web components
掘了17 小时前
「2025 年终总结」在所有失去的人中,我最怀念我自己
前端·后端·年终总结
崔庆才丨静觅17 小时前
实用免费的 Short URL 短链接 API 对接说明
前端
崔庆才丨静觅17 小时前
5分钟快速搭建 AI 平台并用它赚钱!
前端
崔庆才丨静觅18 小时前
比官方便宜一半以上!Midjourney API 申请及使用
前端
Moment18 小时前
富文本编辑器在 AI 时代为什么这么受欢迎
前端·javascript·后端
崔庆才丨静觅18 小时前
刷屏全网的“nano-banana”API接入指南!0.1元/张量产高清创意图,开发者必藏
前端
剪刀石头布啊18 小时前
jwt介绍
前端