机器学习笔记:李宏毅 stable diffusion

1 基本框架

  • ①:文字变成向量
  • ②:喂入噪声+文字encoder,产生中间产物
  • ③:decoder 还原图片

2 text encoder

这张图越往右下表示效果越好,可以看到text encoder尺寸越大,对后续生成图片的增益越多

3 评价图片生成好坏的标准

3.1 FID

  • 现有一个训练好的CNN 模型,可以生成真实影像和生成图像的representation
  • 这两组表征的分布越近,效果越好
  • ------>我们sample 一堆图片,然后生成一组同语义的图片,计算他们分布的distance

3.2 CLIP

  • 如果图片和文字是成对的,那么他们的representation越近表示生成的图片效果越好

4 decoder

  • 训练一个auoto encoder
  • 训练完把decoder拿出来用即可

5 噪声加的位置

  • 之前defusion model 中,noise是加在图片上
  • 但现在产生的东西已经不是图片了
    • ------>noise 加在中间产物上

大体上和diffusion model 类似,这里就是最后多接一个decoder,将中间产物变成图片

相关推荐
Radan小哥33 分钟前
Docker学习笔记—day007
笔记·学习·docker
Rsingstarzengjx1 小时前
PS 笔记1
笔记
PNP Robotics1 小时前
PNP机器人上海宝山智能机器人年会发表机器人10年主题演讲演讲
人工智能·python·机器人
㱘郳1 小时前
软考软件设计师笔记
笔记·软件工程
嵌入式学习者。1 小时前
Eplan自学笔记1
笔记
沫儿笙1 小时前
abb焊接机器人保护气体省气设备
人工智能·机器人
机器人行业研究员1 小时前
轮足之争外,六维力传感器才是机器人的隐形核心
人工智能·机器人·人机交互·六维力传感器·关节力传感器
+wacyltd大模型备案算法备案1 小时前
模型备案服务从业者,专业讲解:大模型备案(生成式人工智能)
人工智能
搬砖者(视觉算法工程师)1 小时前
人工智能(AI)的工程原理与应用
人工智能
da_vinci_x1 小时前
PS 3D Viewer (Beta):概念美术的降维打击,白模直接在PS里转光打影出5张大片
人工智能·游戏·3d·prompt·aigc·材质·游戏美术