CompVisstable-diffusion

文章目录

CompVis/stable-diffusion

CompVis团队开源的文本生成图像模型Stable Diffusion,目前在GitHub累计获得72984个Star。

Stable Diffusion由CompVis联合Stability AI、Runway共同开发,基于此前发表的CVPR 2022论文《High-Resolution Image Synthesis with Latent Diffusion Models》构建。模型训练得到Stability AI的算力捐赠和LAION的支持,使用LAION-5B数据集的子集在512x512分辨率图像上完成训练。

该模型属于潜在扩散模型,使用冻结的CLIP ViT-L/14文本编码器处理文本提示。整体参数包含860M的UNet和123M的文本编码器,对硬件要求较低,可在显存不低于10GB的GPU上运行。

Stable Diffusion v1采用下采样因子为8的自编码器架构,先在256x256图像上预训练,再在512x512图像上微调。目前已发布四个版本的权重,分别经过不同规模和筛选标准的数据集训练,可适应不同的生成需求。模型权重采用CreativeML OpenRAIL M许可协议,可通过Hugging Face的CompVis组织页面获取,协议允许商业使用,但建议使用时添加安全机制。

该模型支持三类核心功能:

  • 文本生成图像:根据输入的文本提示生成对应内容的512x512分辨率图像,支持调整采样步数、引导系数等参数
  • 文本引导图像修改:基于输入图像和文本提示,调整图像内容,支持控制修改幅度
  • 图像超分辨率:放大低分辨率图像,提升画面清晰度

用户可通过两种方式使用该模型。第一种是直接运行项目提供的参考脚本,首先创建conda环境:

复制代码
conda env create -f environment.yaml
conda activate ldm

获取权重后,运行文本生成图像脚本:

复制代码
python scripts/txt2img.py --prompt "a photograph of an astronaut riding a horse" --plms 

第二种是通过diffusers库调用,代码示例如下:

py 复制代码
from torch import autocast
from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained(
    "CompVis/stable-diffusion-v1-4", 
    use_auth_token=True
).to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
with autocast("cuda"):
    image = pipe(prompt)["sample"][0]  
    
image.save("astronaut_rides_horse.png")

项目代码基于OpenAI的ADM代码库和lucidrains的扩散模型实现开发,支持自定义扩展。

开源地址:https://github.com/CompVis/stable-diffusion

源地址:https://github.com/CompVis/stable-diffusion

相关推荐
matrixmind81 小时前
sindresorhustype-fest:TypeScript 工具类型集合
前端·javascript·其他·typescript
Soari1 小时前
开启 AI 艺术创作之门:深度拆解 Stable Diffusion web UI,打造私有化文生图最强阵地
人工智能·ui·stable diffusion
老陈头聊SEO2 小时前
生成引擎优化(GEO)与内容创作融合提升用户体验的实施策略
其他·搜索引擎·seo优化
Dovis(誓平步青云)2 小时前
《SQL语义等价性检查:Pivot的CASE WHEN改写策略与限制》
linux·windows·sql·microsoft·oracle·stable diffusion
javajenius2 小时前
Chroma:AI应用的开源向量数据基础设施
人工智能·其他·开源
淡漠的蓝精灵2 小时前
mem0aimem0,给AI加记忆层的开源方案
人工智能·其他
蓝狐社16 小时前
抖音电商押注自有仓库,在即时零售战场挑战京东、美团
其他
执欣之手21 小时前
Meydiw Cppher
其他
Kent Gu1 天前
串口调试--软件
其他