CompVisstable-diffusion

文章目录

CompVis/stable-diffusion

CompVis团队开源的文本生成图像模型Stable Diffusion,目前在GitHub累计获得72984个Star。

Stable Diffusion由CompVis联合Stability AI、Runway共同开发,基于此前发表的CVPR 2022论文《High-Resolution Image Synthesis with Latent Diffusion Models》构建。模型训练得到Stability AI的算力捐赠和LAION的支持,使用LAION-5B数据集的子集在512x512分辨率图像上完成训练。

该模型属于潜在扩散模型,使用冻结的CLIP ViT-L/14文本编码器处理文本提示。整体参数包含860M的UNet和123M的文本编码器,对硬件要求较低,可在显存不低于10GB的GPU上运行。

Stable Diffusion v1采用下采样因子为8的自编码器架构,先在256x256图像上预训练,再在512x512图像上微调。目前已发布四个版本的权重,分别经过不同规模和筛选标准的数据集训练,可适应不同的生成需求。模型权重采用CreativeML OpenRAIL M许可协议,可通过Hugging Face的CompVis组织页面获取,协议允许商业使用,但建议使用时添加安全机制。

该模型支持三类核心功能:

  • 文本生成图像:根据输入的文本提示生成对应内容的512x512分辨率图像,支持调整采样步数、引导系数等参数
  • 文本引导图像修改:基于输入图像和文本提示,调整图像内容,支持控制修改幅度
  • 图像超分辨率:放大低分辨率图像,提升画面清晰度

用户可通过两种方式使用该模型。第一种是直接运行项目提供的参考脚本,首先创建conda环境:

复制代码
conda env create -f environment.yaml
conda activate ldm

获取权重后,运行文本生成图像脚本:

复制代码
python scripts/txt2img.py --prompt "a photograph of an astronaut riding a horse" --plms 

第二种是通过diffusers库调用,代码示例如下:

py 复制代码
from torch import autocast
from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained(
    "CompVis/stable-diffusion-v1-4", 
    use_auth_token=True
).to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
with autocast("cuda"):
    image = pipe(prompt)["sample"][0]  
    
image.save("astronaut_rides_horse.png")

项目代码基于OpenAI的ADM代码库和lucidrains的扩散模型实现开发,支持自定义扩展。

开源地址:https://github.com/CompVis/stable-diffusion

源地址:https://github.com/CompVis/stable-diffusion

相关推荐
laowangpython6 天前
Photoshop 2025 下载安装全攻略
其他·ui·photoshop
深圳帝王星科技6 天前
SE8405 100V 2A异步降压DC-DC恒压芯片,内置MOS管
其他
shunjinnuantong6 天前
304不锈钢焊接风管的验收标准:全项检测要点
其他
.千余6 天前
【C++】模板进阶全解:非类型参数|全特化|偏特化|分离编译完全指南
开发语言·c++·笔记·学习·其他
2601_959480157 天前
Moneta Markets亿汇:服务体系的方法复盘
其他
小崔聊喷画7 天前
喷绘技术白皮书:从山东单立柱到宽幅喷绘的应用解析与未来趋势
其他
小崔聊喷画7 天前
车贴打印技术白皮书:从山东UV到可转移物料的全面应用指南
其他
北京海得康7 天前
朗斯弗(曲氟尿苷替匹嘧啶片)医保政策与用药指南【海得康】
其他
老刘说AI7 天前
类Sora模型:解锁动态视觉艺术的密码
人工智能·stable diffusion·架构·embedding
python-码博士7 天前
Stable Diffusion 3 / FLUX 类模型中的 Flow Matching:怎么用、怎么调、怎么避坑
stable diffusion