机器学习笔记:李宏毅 stable diffusion

1 基本框架

  • ①:文字变成向量
  • ②:喂入噪声+文字encoder,产生中间产物
  • ③:decoder 还原图片

2 text encoder

这张图越往右下表示效果越好,可以看到text encoder尺寸越大,对后续生成图片的增益越多

3 评价图片生成好坏的标准

3.1 FID

  • 现有一个训练好的CNN 模型,可以生成真实影像和生成图像的representation
  • 这两组表征的分布越近,效果越好
  • ------>我们sample 一堆图片,然后生成一组同语义的图片,计算他们分布的distance

3.2 CLIP

  • 如果图片和文字是成对的,那么他们的representation越近表示生成的图片效果越好

4 decoder

  • 训练一个auoto encoder
  • 训练完把decoder拿出来用即可

5 噪声加的位置

  • 之前defusion model 中,noise是加在图片上
  • 但现在产生的东西已经不是图片了
    • ------>noise 加在中间产物上

大体上和diffusion model 类似,这里就是最后多接一个decoder,将中间产物变成图片

相关推荐
Icomi_29 分钟前
【神经网络】0.深度学习基础:解锁深度学习,重塑未来的智能新引擎
c语言·c++·人工智能·python·深度学习·神经网络
半问30 分钟前
广告营销,会被AI重构吗?
人工智能·重构
movee33 分钟前
一台低配云主机也能轻松愉快地玩RDMA
linux·人工智能·后端
张琪杭34 分钟前
机器学习-随机森林解析
人工智能·随机森林·机器学习
訾博ZiBo1 小时前
AI日报 - 2025年3月11日
人工智能
刘大猫261 小时前
一、MyBatis简介:MyBatis历史、MyBatis特性、和其它持久化层技术对比、Mybatis下载依赖包流程
人工智能·数据挖掘·数据分析
柒十三.2 小时前
江科大51单片机笔记【10】蜂鸣器(上)
笔记·嵌入式硬件·51单片机
@心都2 小时前
机器学习数学基础:42.AMOS 结构方程模型(SEM)分析的系统流程
人工智能·算法·机器学习
陆鳐LuLu2 小时前
深度学习与数据挖掘题库:401-500题精讲
人工智能·深度学习·数据挖掘
子洋2 小时前
AnythingLLM + SearXNG 实现私有搜索引擎代理
前端·人工智能·后端