机器学习笔记:李宏毅 stable diffusion

1 基本框架

  • ①:文字变成向量
  • ②:喂入噪声+文字encoder,产生中间产物
  • ③:decoder 还原图片

2 text encoder

这张图越往右下表示效果越好,可以看到text encoder尺寸越大,对后续生成图片的增益越多

3 评价图片生成好坏的标准

3.1 FID

  • 现有一个训练好的CNN 模型,可以生成真实影像和生成图像的representation
  • 这两组表征的分布越近,效果越好
  • ------>我们sample 一堆图片,然后生成一组同语义的图片,计算他们分布的distance

3.2 CLIP

  • 如果图片和文字是成对的,那么他们的representation越近表示生成的图片效果越好

4 decoder

  • 训练一个auoto encoder
  • 训练完把decoder拿出来用即可

5 噪声加的位置

  • 之前defusion model 中,noise是加在图片上
  • 但现在产生的东西已经不是图片了
    • ------>noise 加在中间产物上

大体上和diffusion model 类似,这里就是最后多接一个decoder,将中间产物变成图片

相关推荐
良策金宝AI2 分钟前
全球工程软件格局重塑:中国AI原生平台的机会窗口
大数据·运维·人工智能
小笔学长4 分钟前
毕业论文答辩 PPT:从内容到呈现的全流程设计指南
人工智能·powerpoint
dagouaofei4 分钟前
长文档也能转成PPT:AI自动拆分章节并生成页面
人工智能·python·powerpoint
IT_陈寒6 分钟前
SpringBoot 3.2 实战:用这5个新特性让你的API性能提升40%
前端·人工智能·后端
CNRio13 分钟前
智能赋能全球化:AI Agent驱动中国科技企业出海的政技融合新范式
人工智能·科技·microsoft
啊阿狸不会拉杆18 分钟前
《数字图像处理》第 3 章 - 灰度变换与空间滤波
图像处理·人工智能·算法·计算机视觉·数字图像处理
Keep_Trying_Go20 分钟前
统一的人群计数训练框架(PyTorch)——基于主流的密度图模型训练框架
人工智能·pytorch·python·深度学习·算法·机器学习·人群计数
YJlio24 分钟前
BgInfo 学习笔记(11.5):多种输出方式(壁纸 / 剪贴板 / 文件)与“更新其他桌面”实战
笔记·学习·c#
hans汉斯27 分钟前
【软件工程与应用】平移置换搬迁系统设计与实现
数据库·人工智能·系统架构·软件工程·汉斯出版社·软件工程与应用
许泽宇的技术分享28 分钟前
Sim.ai:开源AI工作流编排平台的技术革命——从可视化设计到生产级部署的完整实践
人工智能·开源