何恺明新作:简单框架达成无条件图像生成新SOTA!与MIT合作完成

和最好的条件生成方法也可媲美

2023-12-08 12:47:36 来源:量子位

和最好的条件生成方法也可媲美

丰色 发自 凹非寺

量子位 | 公众号 QbitAI

大佬何恺明还未正式入职 MIT,但和 MIT 的第一篇合作研究已经出来了:

他和 MIT 师生一起开发了一个自条件图像生成框架,名叫 RCG(代码已开源)。

这个框架结构非常简单但效果拔群,直接在 ImageNet-1K 数据集上实现了无条件图像生成的新 SOTA

它生成的图像不需要任何人类注释(也就是提示词、类标签什么的),就能做到既保真又具有多样性。

这样的它不仅显著提高了无条件图像生成的水平,还能跟当前最好的条件生成方法一较高下。

用何恺明团队自己的话来说:

有条件和无条件生成任务之间长期存在的性能差距,终于在这一刻被弥补了。

那么,它究竟是如何做到的呢?

首先,所谓无条件生成,就是模型在没有输入信号帮助的情况下直接捕获数据分布生成内容。

这种方式比较难以训练,所以一直和条件生成有很大性能差距------就像无监督学习比不过监督学习一样。

但就像自监督学习的出现,扭转了这一局面一样。

在无条件图像生成领域,也有一个类似于自监督学习概念的自条件生成方法。

相比传统的无条件生成简单地将噪声分布映射到图像分布,这种方法主要将像素生成过程设置在从数据分布本身导出的表示分布上

它有望超越条件图像生成,并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展(这也是为什么条件生成图像发展得这么好,我们还要重视无条件生成)。

现在,基于这个自条件生成概念,何恺明团队首先开发了一个表示扩散模型 RDM

它主要用于生成低维自监督图像表示,方法是通过自监督图像编码器从图像中截取:

它的核心架构如下:

首先是输入层,它负责将表征投射到隐藏维度 C,接着是 N 个全连接块,最后是一个输出层,负责把隐藏层的潜在特征重新投射(转换)到原始表征维度。

其中每一层都包含一个 LayerNorm 层、一个 SiLU 层以及一个线性层。

这样的 RDM 具有两个优点:

一是多样性强,二是计算开销小。

接着,利用 RDM,团队就提出了今天的主角:表示条件图像生成架构 RCG。

它是一个简单的自条件生成框架,由三个组件组成:

一个是 SSL 图像编码器,用于将图像分布转换为紧凑的表示分布。

一个是 RDM,用于对该分布进行建模和采样。

最后是一个像素生成器 MAGE,用于根据表示来处理图像像。

MAGE 的工作方式主要是向 token 化的图像中添加随机掩码,并要求网络以从同一图像中提取的表示为条件来重建丢失的 token。

最终,测试表明,这个自条件生成框架虽结构简单但效果非凡:

在 ImageNet 256×256 上,RCG 实现了 3.56 的 FID 和 186.9 的 IS(Inception Score)得分。

相比之下,在它之前最厉害的无条件生成方法 FID 分数为 7.04,IS 得分为 123.5。

以及,相比条件生成,RCG 也丝毫不逊色,可以达到相当甚至超过该领域基准模型的水平。

最后,在无分类器引导的情况下,RCG 的成绩还能进一步提高到 3.31(FID)和 253.4(IS)。

团队表示:

这些结果表明,自条件图像生成模型拥有巨大潜力,可能预示这一领域新时代的到来。

本文一共三位作者:

一作是 MIT 博士生黎天鸿,本科毕业于清华姚班,研究方向为跨模态集成传感技术。

他的主页很有意思,还专门放了一个菜谱合集------做研究和做饭是他最热爱的两件事。

另一位作者是 MIT 电气工程与计算机科学系(EECS)教授、MIT 无线网络和移动计算中心主任 Dina Katabi,她是今年斯隆奖的获得者,并已当选美国国家科学院院士。

最后,通讯作者为何恺明,他将在明年正式回归学界、离开 Meta 加入 MIT 电气工程和计算机科学系,与 Dina Katabi 成为同事。

论文地址:
arxiv.org/abs/2312.03...

版权所有,未经授权不得以任何形式转载及使用,违者必究。

相关推荐
蚝油菜花几秒前
Cua:Mac用户狂喜!这个开源框架让AI直接接管你的电脑,快速实现AI自动化办公
人工智能·开源
蚝油菜花1 分钟前
AutoAgent:无需编程!接入DeepSeek用自然语言创建和部署AI智能体!港大开源框架让AI智能体开发变成填空题
人工智能·开源
nuise_3 分钟前
李宏毅机器学习笔记06 | 鱼和熊掌可以兼得的机器学习 - 内容接宝可梦
人工智能·笔记·机器学习
林泽毅4 分钟前
SwanLab x EasyR1:多模态LLM强化学习后训练组合拳,让模型进化更高效
算法·llm·强化学习
声网16 分钟前
MiniMax 发布新 TTS 模型 Speech-02,轻松制作长篇有声内容;Meta 高端眼镜年底推出:售价上千美元丨日报
人工智能
HeteroCat21 分钟前
OpenAI 官方学院 -- 提示词课程要点
人工智能·chatgpt
每天做一点改变23 分钟前
AI Agent成为行业竞争新焦点:技术革新与商业重构的双重浪潮
人工智能·重构
大美B端工场-B端系统美颜师25 分钟前
定制化管理系统与通用管理系统,谁更胜一筹?
人工智能·信息可视化·数据挖掘·数据分析
生信小鹏26 分钟前
Nature旗下 | npj Digital Medicine | 图像+转录组+临床变量三合一,多模态AI预测化疗反应,值得复现学习的完整框架
人工智能·学习·免疫治疗·scrna-seq·scrna
OpenLoong 开源社区40 分钟前
技术视界 | 从哲学到技术:人形机器人感知导航的探索(下篇)
人工智能·机器人·开源社区·人形机器人·openloong