GLIGEN用户界面,精确 AI 图像合成

通过Gligen生成的图像,凭借其令人难以置信的精确度,使您能够在图片中选择单个元素的位置。底层是ComfyUI的用户界面将提升AI图像生成的创造力和控制水平。让我们来探索如何下载和安装这些工具!

目录

  • 介绍

  • Gligen UI 教程

    安装

    图像合成

  • 总结

介绍

GLIGEN,即基于语言的图像生成(Grounded-Language-to-Image Generation),是一种相对较新的从文本中创建图像的方法,简单且有效。与仅使用文本的旧方法不同,GLIGEN允许您在描述中添加额外的细节,称为基准输入(grounding inputs),从而使您对图像的最终组成有更多的控制。

这就是GLIGEN的特殊之处:它允许您在文本中包含额外的信息,比如

  • 框:您可以说明物体在图片中应该放置在哪里。
  • 图像:您甚至可以使用另一张图片来影响风格或外观。

  • 其他输入:它可以使用不同类型的细节,如关键点或深度图,用于特殊效果。

通过将文本与这些额外的细节混合在一起,比如通用的文本提示,GLIGEN可以更好地生成与您想要的相符的图片,将元素准确地放置在您想要的位置上。

那么使用GLIGEN可以得到什么?

更多控制:GLIGEN让您可以完全决定图片的最终效果。

更好的创造力:在单张图片中结合多个不同的元素。

这确实非常有用,特别是在复杂的构图中,您通常可能依赖冗长而复杂的文本提示来描述所需的图片中的一切。此外,仅使用文本在图像中定位物体可能具有挑战性,因为稳定扩散可能不容易理解复杂的指令。

通过使用框来指定特定位置生成元素,GLIGEN简化了将您的文字转化为图片的过程。虽然这种方法可能看起来有些抽象,但我们可以通过一个实际的例子来深入探讨如何使用这种技术。

Gligen UI 教程

GLIGEN发布于2023年1月,但直到最近有一个新的gligen-ui,我才意识到之前没有一个好用的用户界面可以使用这种技术。我对此感到很好奇,决定尝试一下,并将向您介绍如何开始进行实验。

这个新鲜而全新的用户界面可以在 https://github.com/mut-ex/gligen-gui 下载。

在开始之前,请确保您的计算机上已经启动并运行了ComfyUI。您可以使用默认的工作流程保持ComfyUI处于打开状态;只需确保您拥有基于Stable Diffusion 1.5的扩散模型。如果您需要关于ComfyUI的帮助,请查看往期教程。

安装

让我们开始吧:下载Gligen模型并将其放置在以下目录中:ComfyUI\models\gligen

您可以在此链接中找到HuggingFace上的模型

https://huggingface.co/comfyanonymous/GLIGEN_pruned_safetensors/tree/main

假设您已经安装了Python和Git,您可以按照README中概述的步骤开始操作。已创建了一个Python虚拟环境,以将该工具与其他Python库隔离开来。

conda create -n gligen

conda activate gligen

然后,要安装实际的用户界面,您需要在终端中执行以下命令:

pip install flask

git clone https://github.com/mut-ex/gligen-gui.git

cd gligen-gui

flask --app "gligen_gui:create_app(8188)" run --port 5000

最后一个命令是实际启动应用程序的命令。请确保在最后的命令中使用双引号,否则可能会出现错误。如果在终端中看到这一行,表示您的应用程序已准备就绪。

Go to: http://127.0.0.1:5000/port/8188.

现在,打开一个浏览器并导航到上面提到的URL。用户界面应该会加载在页面上。

.

图像合成

首先,您需要在脑海中有一个图像的想法。然后,在画布的左上部分拖动鼠标以绘制边界框。接下来,通过在右侧表格中的相应文本输入中输入提示来为这些框进行标注。建议一开始保持这些提示简单,这样您可以更好地理解工具的功能。

如果您希望提供有关您的图像的其他详细信息,您可以使用名为"POSITIVE"的文本输入框。然而,为了获得最佳结果,建议您坚持使用与所需风格和图像质量相关的标签。

确保从下拉菜单中选择一个检查点。然后,当所有的框都准备好时,点击"Queue prompt"。请记住,第一次尝试生成的图像可能不完美;您需要进行实验以了解框是如何相互作用和融合内容的。有时,一个框可能生成一张与其余组合不太匹配的图像,所以根据需要随时删除和替换框。这些是我在使用相同提示进行实验后所做的更改:

我需要将天空和日落的框变小,增加重叠,并简化文本提示,直到我获得了一个我认为非常好的结果。

最好在框中指定一个非常具体的项目。通过将"a storm"替换为"thunder",我在那个位置得到了我想要的结果。然后,我在一般的POSITIVE提示中包含了风暴的概念,我认为这样做效果更好。有时,甚至将该字段留空也会产生良好的结果,所以这不是必须的,但它可能有助于获得更一致的结果。

这个用户界面还很新,但我已经发现它非常强大。这是一个使用Gligen进行实验的简单方法。您可以使用稳定扩散的许多常用参数,并且它甚至与LORAs兼容。

您使用的基础模型也会显著影响您输出的质量。请密切关注Git存储库,因为随着时间的推移,可能会频繁更改并可能添加新功能。

总结

Gligen是一种已经为人所知的技术,通过指定您想要在特定区域创建的内容,使您能够以细致的控制来组合AI图像。它不仅仅是通过文本提示进行控制,还涉及空间信息。最新的gligen-ui简化了这种技术的实施,使其更加易于使用。

原文:

aiguildhub.com/gligen-ui-stable-diffusion/

备注:comfyui

相关推荐
聚客AI4 分钟前
PyTorch玩转CNN:卷积操作可视化+五大经典网络复现+分类项目
人工智能·pytorch·神经网络
程序员岳焱7 分钟前
深度剖析:Spring AI 与 LangChain4j,谁才是 Java 程序员的 AI 开发利器?
java·人工智能·后端
柠檬味拥抱8 分钟前
AI智能体在金融决策系统中的自主学习与行为建模方法探讨
人工智能
智驱力人工智能19 分钟前
智慧零售管理中的客流统计与属性分析
人工智能·算法·边缘计算·零售·智慧零售·聚众识别·人员计数
Humbunklung30 分钟前
Rust Floem UI 框架使用简介
开发语言·ui·rust
workflower37 分钟前
以光量子为例,详解量子获取方式
数据仓库·人工智能·软件工程·需求分析·量子计算·软件需求
壹氿41 分钟前
Supersonic 新一代AI数据分析平台
人工智能·数据挖掘·数据分析
张较瘦_1 小时前
[论文阅读] 人工智能 | 搜索增强LLMs的用户偏好与性能分析
论文阅读·人工智能
我不是小upper1 小时前
SVM超详细原理总结
人工智能·机器学习·支持向量机
Yxh181377845541 小时前
抖去推--短视频矩阵系统源码开发
人工智能·python·矩阵