字节开源新生图模型:一个模型统一所有生图任务,多主体融合效果 SOTA

利用字节团队魔改的 FLUX 模型,可以直接把多个参考主体放进一张图了。

字节团队以 FLUX 为基础模型,提出了新的生图模型 UNO,统一了图像生成任务中不同输入条件的处理。

无论是单主体进行风格变换,还是不同物体的融合,UNO 都能直接搞定。

字节团队认为,UNO 主要解决的是参考驱动的图像生成中的两个主要挑战------数据可扩展性和主体可扩展性。

传统方法在从单主体数据集扩展到多主体数据集时面临困难,且大多数方法仅关注单主体生成,难以应用于多主体场景。

为了解决这一问题,团队提出了 "模型 - 数据共同进化" 的新范式,能够在增强模型能力的同时,不断丰富可用的训练数据。

多主体参考生图测试中,UNO 的 DINO 和 CLIP 得分均达到了 SOTA 水平。

网友评价说,UNO 看上去是一个巨大的飞跃,如果真的能搞定多主体参考,将会大幅激发定制化 AI 智能体的潜力。

另外,团队还在 HuggingFace 上提供了在线试玩,但前提是拥有 HF 的 GPU 额度。

一个模型搞定单 / 多主体参考

如开头所述,UNO 将单纯的文生图,以及单 / 多主体参考这些不同的任务都整合到了一个模型当中。

具体来说,除了直接的文生图之外,它可以把多张参考图当中的物体进行组合。

当然三个物体也照样能很好地组合,官方提供的在线 Demo 当中最多可以上传四张参考图。

也可以对参考主体中的人物特征进行保持,生成不同场景的人物图像。

同时对于人物而言,也可以在保留基本特征的条件下进行风格转换,包括被 GPT-4o 带火的吉卜力风也能拿捏。

应用场景方面,官方给出了虚拟试穿和产品设计这两组示例。

对于 UNO 的单主体生成能力,团队使用了 DreamBench 进行了测试,使用了三个主要指标------

DINO 分数、CLIP-I 分数(这两个用于评估主体相似度)和 CLIP-T 分数(用于评估文本忠实度)。

多主体生成测试则采用了一个特别设计的测试集------从 DreamBench 中选取了 30 种不同的双主体组合,包括非生物体和生物体的组合。

最终,UNO 的测试成绩无论在单主体还是多主体任务中都处于领先水平。

研究团队还进行了用户研究,邀请了 30 位评估者(包括领域专家和非专家)对 300 个图像组合进行评估。

结果,UNO 在所有评估维度上都获得了较高评分,特别是在主体相似度和文本忠实度方面的表现最为突出。

此外,团队还展示了 UNO 和一些 SOTA 级模型的效果对比,可以直观感受一下区别。

模型 - 数据共同进化

UNO 采用了这一种 "模型 - 数据共同进化" 的新范式,核心思想是用较弱的模型生成训练数据,训练更强的模型。

在模型架构方面,UNO 以开源模型 FLUX.1 dev 为基础,继承了其文生图基础能力和多模态注意力机制,采用了通用定制化模型框架。

具体来说,该框架采用渐进式跨模态对齐策略,将训练过程分为两个连续阶段------

  • 首先使用单主体数据对预训练的文生图(T2I)模型进行微调,使其获得基本的主体到图像转换(S2I)能力;

  • 随后引入多主体数据继续训练,增强模型处理复杂场景的能力。

此外研究团队提出了通用旋转位置嵌入(UnoPE)技术,通过为文本和图像标记分配特定的位置索引,来调控多模态标记之间的交互。

UnoPE 采用从噪声图像标记最大维度开始的对角线位置编码方式,并通过调整位置索引范围来防止生成图像过度依赖参考图像的空间结构,有效缓解了在扩展视觉主体控制时容易出现的属性混淆问题。

数据方面,团队利用 Diffusion Transformer 固有的上下文生成能力构建了数据合成框架。

团队首先构建了一个包含 365 个顶层类别的分类树,这些类别来自 Object365 数据集。

在每个类别下,还包含了更细粒度的分类,涵盖年龄、职业和着装风格等维度。

然后利用大模型在每个类别中生成丰富多样的主体和场景描述,这些输出与预定义的文本模板结合,可以为文生图模型生成数百万个文本提示。

最终,研究团队设计了一个渐进式的合成管道,从单主体生成开始,逐步过渡到多主体上下文生成。

来自字节智能创作团队

论文显示,UNO 的作者字节智能创作团队。

据介绍,该团队是字节的 AI & 多媒体技术中台,研究方向包括计算机视觉、音视频编辑、特效处理等技术。

之前字节提出的用于提升图像生成模型 "美感" 的 VMix,也是来自智能创作团队,并且作者与这次的 UNO 基本相同。

本次 UNO 的项目负责人是 Fei Ding,是 Vmix 的通讯作者,之前还参与过 Realcustom++、Dreamtuner 等项目的工作。

UNO 的第一作者 Shaojin Wu、通讯作者黄梦琪,之前也都参与过 Vmix。

黄梦琪目前是中科大博士在读,2023 年起至今一直在字节实习,预计今年毕业,导师是毛震东教授。

另外,字节招聘网站显示,智能创作团队目前正在招聘 AIGC 技术专家、多模态算法专家等岗位。

论文地址:
arxiv.org/abs/2504.02...

项目主页:
bytedance.github.io/UNO/

欢迎在评论区留下你的想法!

--- ---

相关推荐
geneculture22 分钟前
邹晓辉教授基于融智学的意识5W2H数学系统刻画
大数据·人工智能·机器学习·融智学的重要应用·融智学
望获linux28 分钟前
实时操作系统:航空电子系统的安全基石还是创新枷锁?
人工智能·安全·机器人·操作系统·开源软件·rtos·飞行器
Faylynn5 小时前
AI入门:Prompt提示词写法
人工智能·ai·prompt
___Dream6 小时前
【TF-BERT】基于张量的融合BERT多模态情感分析
人工智能·深度学习·bert
Jamence6 小时前
多模态大语言模型arxiv论文略读(六十三)
人工智能·语言模型·自然语言处理
hkNaruto7 小时前
【AI】Ubuntu 22.04 evalscope 模型评测 Qwen3-4B-FP8
人工智能·ubuntu·qwen3
(・Д・)ノ8 小时前
python打卡day18
人工智能·机器学习
生信碱移8 小时前
TCGA数据库临床亚型可用!贝叶斯聚类+特征网络分析,这篇 NC 提供的方法可以快速用起来了!
人工智能·python·算法·数据挖掘·数据分析
奔驰的小野码8 小时前
SpringAI实现AI应用-内置顾问
java·人工智能·后端·spring
CHNMSCS9 小时前
PyTorch_创建01张量
人工智能·pytorch·python