CompVisstable-diffusion

文章目录

CompVis/stable-diffusion

CompVis团队开源的文本生成图像模型Stable Diffusion,目前在GitHub累计获得72984个Star。

Stable Diffusion由CompVis联合Stability AI、Runway共同开发,基于此前发表的CVPR 2022论文《High-Resolution Image Synthesis with Latent Diffusion Models》构建。模型训练得到Stability AI的算力捐赠和LAION的支持,使用LAION-5B数据集的子集在512x512分辨率图像上完成训练。

该模型属于潜在扩散模型,使用冻结的CLIP ViT-L/14文本编码器处理文本提示。整体参数包含860M的UNet和123M的文本编码器,对硬件要求较低,可在显存不低于10GB的GPU上运行。

Stable Diffusion v1采用下采样因子为8的自编码器架构,先在256x256图像上预训练,再在512x512图像上微调。目前已发布四个版本的权重,分别经过不同规模和筛选标准的数据集训练,可适应不同的生成需求。模型权重采用CreativeML OpenRAIL M许可协议,可通过Hugging Face的CompVis组织页面获取,协议允许商业使用,但建议使用时添加安全机制。

该模型支持三类核心功能:

  • 文本生成图像:根据输入的文本提示生成对应内容的512x512分辨率图像,支持调整采样步数、引导系数等参数
  • 文本引导图像修改:基于输入图像和文本提示,调整图像内容,支持控制修改幅度
  • 图像超分辨率:放大低分辨率图像,提升画面清晰度

用户可通过两种方式使用该模型。第一种是直接运行项目提供的参考脚本,首先创建conda环境:

复制代码
conda env create -f environment.yaml
conda activate ldm

获取权重后,运行文本生成图像脚本:

复制代码
python scripts/txt2img.py --prompt "a photograph of an astronaut riding a horse" --plms 

第二种是通过diffusers库调用,代码示例如下:

py 复制代码
from torch import autocast
from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained(
    "CompVis/stable-diffusion-v1-4", 
    use_auth_token=True
).to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
with autocast("cuda"):
    image = pipe(prompt)["sample"][0]  
    
image.save("astronaut_rides_horse.png")

项目代码基于OpenAI的ADM代码库和lucidrains的扩散模型实现开发,支持自定义扩展。

开源地址:https://github.com/CompVis/stable-diffusion

源地址:https://github.com/CompVis/stable-diffusion

相关推荐
老陈头聊SEO9 小时前
生成引擎优化(GEO)提升内容创作效率与用户体验的关键策略
其他·搜索引擎·seo优化
2601_9594801510 小时前
Moneta Markets亿汇:“光通信需求打开成长空间”
其他
蓝狐社13 小时前
当支付宝开始为“机器经济”修路
其他
2601_9594796316 小时前
ZFX山海证券:“设备租赁龙头凸显韧性”
其他
秦明月132 天前
水冷板装配安全回路设计实战解析
经验分享·其他·职场和发展·创业创新·学习方法
西安邮电大学2 天前
Redis为什么快?
java·redis·后端·其他·面试
KaMeidebaby3 天前
卡梅德生物技术快报|免疫共沉淀 - Co-IP 实验在转录因子 ATF3/Smad4 蛋白互作研究中的应用实例解析
网络·人工智能·网络协议·tcp/ip·其他·算法·新浪微博
邵老师讲教育3 天前
2026年甄选:七服务商全面评测宁波初一数学小升初本土教培
其他
三无推导3 天前
ComfyUI 安装部署教程:Windows 下快速搭建可视化 AI 绘图工作流,零基础也能跑通
人工智能·pytorch·windows·stable diffusion·aigc·ai绘画·持续部署
code_pgf3 天前
ViT 与 MAE 在图像特征提取方面的优势详解
人工智能·stable diffusion