机器学习笔记:李宏毅 stable diffusion

1 基本框架

  • ①:文字变成向量
  • ②:喂入噪声+文字encoder,产生中间产物
  • ③:decoder 还原图片

2 text encoder

这张图越往右下表示效果越好,可以看到text encoder尺寸越大,对后续生成图片的增益越多

3 评价图片生成好坏的标准

3.1 FID

  • 现有一个训练好的CNN 模型,可以生成真实影像和生成图像的representation
  • 这两组表征的分布越近,效果越好
  • ------>我们sample 一堆图片,然后生成一组同语义的图片,计算他们分布的distance

3.2 CLIP

  • 如果图片和文字是成对的,那么他们的representation越近表示生成的图片效果越好

4 decoder

  • 训练一个auoto encoder
  • 训练完把decoder拿出来用即可

5 噪声加的位置

  • 之前defusion model 中,noise是加在图片上
  • 但现在产生的东西已经不是图片了
    • ------>noise 加在中间产物上

大体上和diffusion model 类似,这里就是最后多接一个decoder,将中间产物变成图片

相关推荐
SpikeKing11 分钟前
LLM - 使用 LLaMA-Factory 微调大模型 环境配置与训练推理 教程 (1)
人工智能·llm·大语言模型·llama·环境配置·llamafactory·训练框架
Selina K28 分钟前
shell脚本知识点记录
笔记·shell
黄焖鸡能干四碗40 分钟前
信息化运维方案,实施方案,开发方案,信息中心安全运维资料(软件资料word)
大数据·人工智能·软件需求·设计规范·规格说明书
40 分钟前
开源竞争-数据驱动成长-11/05-大专生的思考
人工智能·笔记·学习·算法·机器学习
ctrey_1 小时前
2024-11-4 学习人工智能的Day21 openCV(3)
人工智能·opencv·学习
攻城狮_Dream1 小时前
“探索未来医疗:生成式人工智能在医疗领域的革命性应用“
人工智能·设计·医疗·毕业
霍格沃兹测试开发学社测试人社区1 小时前
软件测试学习笔记丨Flask操作数据库-数据库和表的管理
软件测试·笔记·测试开发·学习·flask
学习前端的小z1 小时前
【AIGC】如何通过ChatGPT轻松制作个性化GPTs应用
人工智能·chatgpt·aigc
幸运超级加倍~2 小时前
软件设计师-上午题-16 算法(4-5分)
笔记·算法
埃菲尔铁塔_CV算法2 小时前
人工智能图像算法:开启视觉新时代的钥匙
人工智能·算法