扩散模型 GLIDE:35 亿参数的情况下优于 120 亿参数的 DALL-E 模型

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。

针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。

合集:

《AIGC 面试宝典》已圈粉无数!


论文:GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

代码:https://link.zhihu.com/?target=https%3A//github.com/openai/glide-text2im

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了算法岗技术与面试交流群 , 想要大模型技术交流、了解最新面试动态的、需要源码&资料、提升技术的同学,可以直接加微信号:mlc2040。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

想加入星球也可以如下方式:

方式①、微信搜索公众号:机器学习社区,后台回复:交流

方式②、添加微信号:mlc2040,备注:交流

一、背景

在扩散模型经过了一系列发展之后,Openai 开始探索文本条件下的图像生成,并在这篇论文里对比了两种不同的 guidance 策略,分别是通过 CLIP 引导和 classifier-free 的引导。

验证了 classifier-free 的方式生成的图片更真实,与提示的文本有更好的相关性。并且使用 classifier-free 的引导的 GLIDE模型在 35 亿参数的情况下优于 120 亿参数的 DALL-E 模型

二、方法

作者训练的模型包括:

  • 一个 35 亿参数量的 text-conditional 扩散模型,分辨率为 64*64
  • 一个 15 亿参数量的 text-conditional 上采样扩散模型,将分辨率提升至 256x256
  • 对于 CLIP guidance 模型,还额外训练了一个 64x64 noised ViT-L CLIP

三、效果

3.1 不同引导方式的对比:
3.2 定量对比

精选

相关推荐
渡我白衣3 分钟前
深度学习优化算法深入分析:从 SGD 到 LAMB
人工智能·深度学习·算法
三年呀25 分钟前
神经符号AI的深度探索:从原理到实践的全景指南
人工智能·深度学习·知识表示·神经符号ai·ai系统设计
极度畅想30 分钟前
脑电模型实战系列(二):PyTorch实现CNN_DEAP的多尺度时空特征提取
深度学习·脑机接口·bci·情感计算·跨被试泛化·dnn cnn rnn·时空特征提取
SkyXZ1 小时前
手把手带你解析复现3D点云检测经典之作PointNet
深度学习
ZHOU_WUYI1 小时前
OpenAI Agents 记忆管理示例
人工智能·agent
做科研的周师兄1 小时前
中国逐日格点降水数据集V2(1960–2024,0.1°)
人工智能·学习·机器学习·支持向量机·聚类
有点不太正常2 小时前
Differentially Private Synthetic Text Generation for RAG——论文阅读
论文阅读·大模型·llm·rag
Wade_Crab2 小时前
第二章:动态 Prompt 管理与多科室智能问答系统
人工智能·spring·prompt
码界奇点2 小时前
2025时序数据库选型指南从架构基因到AI赋能的深度解析
人工智能·ai·架构·时序数据库
IT_陈寒2 小时前
Python 3.11性能翻倍秘诀:7个你从未注意过的隐藏优化点!
前端·人工智能·后端