基于stable diffusion图像生成的小小demo应用(pytorch)

视频讲解:

https://www.douyin.com/video/7615163022817938728?count=10&cursor=0&enter_method=post&modeFrom=userPost&previous_page=personal_homepage&secUid=MS4wLjABAAAA0NVS_BfnZjuBUqHzrh-1oSxoNxExvuesrznu1Wu4-fc

https://www.bilibili.com/video/BV1o7PSzZEFi/?pop_share=1&spm_id_from=333.40164.0.0&vd_source=b2eaaddb2c69bf42517a2553af8444ab

stable diffusion代码:https://github.com/CompVis/stable-diffusion

参考代码:

https://github.com/hkproj/pytorch-stable-diffusion/tree/main

https://github.com/kjsman/stable-diffusion-pytorch

demo代码下载:https://github.com/KeepTryingTo/PyTorch-DeepLearning-Visual-LLM/tree/main/Text2Image/stable-diffusion

本文汇总了Stable Diffusion相关代码资源与参数说明,并整理了多篇文本生成图像(Text-to-Image)领域的核心论文。代码部分包含官方实现和PyTorch复现版本,重点解析了prompt、uncond_prompt、cfg_scale等关键参数的作用。论文部分系统梳理了GAN-based方法(如AttnGAN、MirrorGAN)、扩散模型(Stable Diffusion)、Transformer架构(VQ-GAN、MaskGIT)三大技术路线,涵盖基础模型(StackGAN)、优化方法(ControlGAN)到评估指标(视觉语义相似性)等研究方向,为文本生成图像领域提供了全面的技术参考。

参数解释:理解好以下的参数前提是对文生图有一定的了解,同时对扩散模型以及stable diffusion有一定的了解最好。

复制代码
prompt​ - 主文本提示
作用:描述希望生成图像的主要内容或主题
示例:"a beautiful sunset over mountains"

uncond_prompts​ (List[str], 可选, 默认为[""] * len(prompts))
作用:不用于引导图像生成的文本提示列表。当不启用引导时(即do_cfg为False时)会被忽略
使用场景:提供不希望出现在生成图像中的内容描述

do_cfg​ (bool, 可选, 默认为True)
作用:启用分类器自由引导
功能:通过对比条件提示和无条件提示来提升生成质量

cfg_scale​ (float, 可选, 默认为7.5)
作用:分类器自由引导的引导强度。当引导do_cfg被禁用时会被忽略
影响:较高的引导尺度鼓励生成与文本提示紧密相关的图像,但通常以降低图像质量为代价

input_image​ - 输入图像
类型:图像对象,默认值为None
作用:提供基础图像用于图像编辑、修复等任务
处理流程:图像会被缩放至512×512分辨率,并通过编码器转换为潜在表示

strength​ - 噪声添加强度
类型:浮点数,默认值为0.8
作用:控制对输入图像的修改程度,取值范围为(0, 1]
数值接近1:添加更多噪声,输出与输入图像差异较大
数值接近0:添加较少噪声,输出与输入图像较为相似
其实这个参数是通过控制去噪的起始位置来控制噪声程度的,
比如strength=1,表示从T位置开始去噪,那么生成的图像随机性也就越大


sampler_name​ - 采样器选择
类型:字符串,默认值为"ddpm"
作用:指定使用的扩散模型采样器
当前实现仅支持DDPM(Denoising Diffusion Probabilistic Models)

n_inference_steps​ - 推理步数
类型:整数,默认值为50
作用:控制去噪过程的精细程度
步数越多,生成质量通常越高,但计算时间也越长

seed​ - 随机种子
类型:整数,默认值为None
作用:控制随机数生成,确保结果可重现
当设置为特定值时,每次运行会生成相同结果
模型与设备参数

tokenizer​ - 分词器
类型:分词器对象
作用:将文本提示转换为模型可处理的token序列

论文GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis详解(代码详解)

论文Generative Adversarial Text to Image Synthesis详解

论文DF-GAN: ASimple and Effective Baseline for Text-to-Image Synthesis详解

论文StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks详解

论文StackGAN++详解

论文HDGAN(Photographic Text-to-Image Synthesis with a Hierarchically-nested Adversarial Network)详解

视觉语义相似性评估(文本和图像之间的相似性-HDGAN)

论文AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks详解

文本和图像编码器(AttnGAN)详解

文本对图像的描述(MirrorGAN)

论文MirrorGAN: Learning Text-to-image Generation by Redescription详解

基于GAN的文生图(DM-GAN:Dynamic MemoryGenerative Adversarial Networks for Text-to-Image Synthesis)

基于监督对比学习的统一图像生成框架(A Framework For Image Synthesis Using Supervised Contrastive Learning)

基于GAN的文生图算法详解(Text to Image Generation with Semantic-Spatial Aware GAN)

基于GAN的文生图算法详解ControlGAN(Controllable Text-to-Image Generation)

StyleGAN-T文生图算法详解(Unlocking the Power of GANs forFast Large-Scale Text-to-Image Synthe)

论文VQ-GAN(Taming Transformers for High-Resolution Image Synthesis)高分辨图像生成讲解(PyTorch)

论文Neural Discrete Representation Learning(VQ-VAE)详解(PyTorch)

论文VQ-VAE-2(Generating Diverse High-Fidelity Images with VQ-VAE-2)详解(PyTorch)

MaskGIT掩码生成图算法详解(MaskGIT: Masked Generative Image Transformer)

SD-GAN文生图算法详解(Semantics Disentangling for Text-to-Image Generation)

相关推荐
RuiBo_Qiu2 小时前
【LLM基础】5.prompt & context engineering
人工智能·机器学习·prompt·ai-native
San30.2 小时前
手写 Mini Cursor:基于 Node.js 与 LangChain 的开发实战
人工智能·langchain·node.js·agent
CIO402 小时前
AI未来--AI时代40岁IT人方向
人工智能
飞Link2 小时前
进阶时序建模:门控递归单元 (GRU) 深度解析与实战
开发语言·人工智能·rnn·深度学习·gru
进击ing小白2 小时前
OpenCv之两图像像素操作与运算
人工智能·opencv·计算机视觉
无心水2 小时前
【OpenClaw:源码解析】15、OpenClaw Gateway 大脑中枢——dispatch_task 函数与消息队列设计探秘
人工智能·arcgis·系统架构·openclaw·openclaw·三月创作之星·ai前沿
格林威2 小时前
工业相机图像高速存储(C++版):先存内存,后批量转存方法,附海康相机实战代码!
开发语言·c++·人工智能·数码相机·计算机视觉·工业相机·堡盟相机
啊阿狸不会拉杆2 小时前
《计算机视觉:模型、学习和推理》第 19 章-时序模型
人工智能·python·学习·机器学习·计算机视觉·时序模型