之前介绍过音频处理,图片生成视频,图片+音频对嘴,视频+音频对嘴。
今天介绍一个文字生成图片的开源项目,我已经在本地搭建完成了使用了。
一:下载源代码
地址:https://github.com/AUTOMATIC1111/stable-diffusion-webui
直接下载,解压就行。
二:环境搭建
使用Anaconda环境中搭建:
#进入加压包
cd stable-diffusion-webui
#创建环境
conda create --name stable-diff python=3.10
#激活环境:
conda activate stable-diff
#首次运行(会下载模型):
python launch.py
#运行中如果有报错,差什么就安装什么
pip install ...
三:运行
运行:
python webui.py
四:添加v2新模型
这里默认下载的是v1-5-pruned-emaonly。查了下最新的有v2版本,下面就配置个v2版本。
(1):模型下载:https://huggingface.co/stabilityai/stable-diffusion-2-1/tree/main
下载 文件v2-1_768-ema-pruned.safetensors 有点大5G。放到文件夹\stable-diffusion-webui\models\Stable-diffusion 中。
然后重启服务,刷新模板,重新生成。图片生成了,但是图像不对。
注意如果有报错,需要设置一下:
modules.devices.NansException: A tensor with NaNs was produced in Unet. This could be either because there's not enough precision to represent the picture, or because your video card does not support half type. Try setting the "Upcast cross attention layer to float32" option in Settings > Stable Diffusion or using the --no-half commandline argument to fix this. Use --disable-nan-check commandline argument to disable this check.
(2):解码器下载,这里使用社区开源的解码器
下载后存放在文件夹**\stable-diffusion-webui\models\VAE 。**
(3):配置:
-
回到 Web UI 界面,进入 Settings (设置) 标签页。
-
在左侧菜单,点击 Stable Diffusion 子菜单。(就是你之前找到 "Upcast" 选项的那个地方)。
-
在右侧的选项中,找到一个叫做 SD VAE 的下拉菜单。
-
点击这个下拉菜单,选择你刚刚放进去的那个 VAE 文件(比如 vae-ft-mse-840000-ema-pruned.safetensors)。
- 如果菜单里没看到,可以点击下拉菜单旁边的小小的刷新按钮 🔄 。
-
非常重要 :滚动到页面顶部,点击橙色的 (应用设置) ,然后点击 (重载界面)。
(4):重新启动,注意是在cmd的conda 环境中重新启动服务。
选择v2时,有一些参数可以适当的修改一些,然后使用相同的提示词,重新点击生成。
搞定,收工。