机器学习笔记：李宏毅 stable diffusion

UQI-LIUWJ2023-08-14 13:02

1 基本框架

①：文字变成向量
②：喂入噪声+文字encoder，产生中间产物
③：decoder 还原图片

2 text encoder

这张图越往右下表示效果越好，可以看到text encoder尺寸越大，对后续生成图片的增益越多

3 评价图片生成好坏的标准

3.1 FID

现有一个训练好的CNN 模型，可以生成真实影像和生成图像的representation
这两组表征的分布越近，效果越好
------>我们sample 一堆图片，然后生成一组同语义的图片，计算他们分布的distance

3.2 CLIP

如果图片和文字是成对的，那么他们的representation越近表示生成的图片效果越好

4 decoder

训练一个auoto encoder
训练完把decoder拿出来用即可

5 噪声加的位置

之前defusion model 中，noise是加在图片上
但现在产生的东西已经不是图片了
- ------>noise 加在中间产物上

大体上和diffusion model 类似，这里就是最后多接一个decoder，将中间产物变成图片

上一篇：Centos( 或Linux )下定时删除N天前的文件脚本

下一篇：手势识别rtos小车（3）----运动部分

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI科技热点日报 | 2026年07月01日 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结