机器学习笔记:李宏毅 stable diffusion

1 基本框架

  • ①:文字变成向量
  • ②:喂入噪声+文字encoder,产生中间产物
  • ③:decoder 还原图片

2 text encoder

这张图越往右下表示效果越好,可以看到text encoder尺寸越大,对后续生成图片的增益越多

3 评价图片生成好坏的标准

3.1 FID

  • 现有一个训练好的CNN 模型,可以生成真实影像和生成图像的representation
  • 这两组表征的分布越近,效果越好
  • ------>我们sample 一堆图片,然后生成一组同语义的图片,计算他们分布的distance

3.2 CLIP

  • 如果图片和文字是成对的,那么他们的representation越近表示生成的图片效果越好

4 decoder

  • 训练一个auoto encoder
  • 训练完把decoder拿出来用即可

5 噪声加的位置

  • 之前defusion model 中,noise是加在图片上
  • 但现在产生的东西已经不是图片了
    • ------>noise 加在中间产物上

大体上和diffusion model 类似,这里就是最后多接一个decoder,将中间产物变成图片

相关推荐
檐下翻书17313 分钟前
世界模型:AI理解物理空间的关键一步
人工智能
20130924162727 分钟前
1968年 Hart, Nilsson, Raphael 《最小成本路径启发式确定的形式基础》A* 算法深度研究报告
人工智能·算法
InterestOriented32 分钟前
破解银发学习痛点 兴趣岛 “普惠 + 品质” 模式打造积极老龄化范本
大数据·人工智能·学习
Mark_Aussie1 小时前
ADALog 日志异常检测
人工智能
Jouham1 小时前
教培获客破局:AI智能体如何重塑需求捕捉与转化新范式
人工智能
HyperAI超神经1 小时前
IQuest-Coder-V1:基于代码流训练的编程逻辑增强模型;Human Face Emotions:基于多标注维度的人脸情绪识别数据集
人工智能·深度学习·学习·机器学习·ai编程
开发者每周简报1 小时前
MCP + 氛围编辑
人工智能
生擒小朵拉1 小时前
ROS1学习笔记(二)
笔记·学习
啊阿狸不会拉杆2 小时前
《机器学习》第 1 章 - 机器学习概述
人工智能·机器学习·ai·ml
咚咚王者2 小时前
人工智能之核心基础 机器学习 第十八章 经典实战项目
人工智能·机器学习