字节开源新生图模型:一个模型统一所有生图任务,多主体融合效果 SOTA

利用字节团队魔改的 FLUX 模型,可以直接把多个参考主体放进一张图了。

字节团队以 FLUX 为基础模型,提出了新的生图模型 UNO,统一了图像生成任务中不同输入条件的处理。

无论是单主体进行风格变换,还是不同物体的融合,UNO 都能直接搞定。

字节团队认为,UNO 主要解决的是参考驱动的图像生成中的两个主要挑战------数据可扩展性和主体可扩展性。

传统方法在从单主体数据集扩展到多主体数据集时面临困难,且大多数方法仅关注单主体生成,难以应用于多主体场景。

为了解决这一问题,团队提出了 "模型 - 数据共同进化" 的新范式,能够在增强模型能力的同时,不断丰富可用的训练数据。

多主体参考生图测试中,UNO 的 DINO 和 CLIP 得分均达到了 SOTA 水平。

网友评价说,UNO 看上去是一个巨大的飞跃,如果真的能搞定多主体参考,将会大幅激发定制化 AI 智能体的潜力。

另外,团队还在 HuggingFace 上提供了在线试玩,但前提是拥有 HF 的 GPU 额度。

一个模型搞定单 / 多主体参考

如开头所述,UNO 将单纯的文生图,以及单 / 多主体参考这些不同的任务都整合到了一个模型当中。

具体来说,除了直接的文生图之外,它可以把多张参考图当中的物体进行组合。

当然三个物体也照样能很好地组合,官方提供的在线 Demo 当中最多可以上传四张参考图。

也可以对参考主体中的人物特征进行保持,生成不同场景的人物图像。

同时对于人物而言,也可以在保留基本特征的条件下进行风格转换,包括被 GPT-4o 带火的吉卜力风也能拿捏。

应用场景方面,官方给出了虚拟试穿和产品设计这两组示例。

对于 UNO 的单主体生成能力,团队使用了 DreamBench 进行了测试,使用了三个主要指标------

DINO 分数、CLIP-I 分数(这两个用于评估主体相似度)和 CLIP-T 分数(用于评估文本忠实度)。

多主体生成测试则采用了一个特别设计的测试集------从 DreamBench 中选取了 30 种不同的双主体组合,包括非生物体和生物体的组合。

最终,UNO 的测试成绩无论在单主体还是多主体任务中都处于领先水平。

研究团队还进行了用户研究,邀请了 30 位评估者(包括领域专家和非专家)对 300 个图像组合进行评估。

结果,UNO 在所有评估维度上都获得了较高评分,特别是在主体相似度和文本忠实度方面的表现最为突出。

此外,团队还展示了 UNO 和一些 SOTA 级模型的效果对比,可以直观感受一下区别。

模型 - 数据共同进化

UNO 采用了这一种 "模型 - 数据共同进化" 的新范式,核心思想是用较弱的模型生成训练数据,训练更强的模型。

在模型架构方面,UNO 以开源模型 FLUX.1 dev 为基础,继承了其文生图基础能力和多模态注意力机制,采用了通用定制化模型框架。

具体来说,该框架采用渐进式跨模态对齐策略,将训练过程分为两个连续阶段------

  • 首先使用单主体数据对预训练的文生图(T2I)模型进行微调,使其获得基本的主体到图像转换(S2I)能力;

  • 随后引入多主体数据继续训练,增强模型处理复杂场景的能力。

此外研究团队提出了通用旋转位置嵌入(UnoPE)技术,通过为文本和图像标记分配特定的位置索引,来调控多模态标记之间的交互。

UnoPE 采用从噪声图像标记最大维度开始的对角线位置编码方式,并通过调整位置索引范围来防止生成图像过度依赖参考图像的空间结构,有效缓解了在扩展视觉主体控制时容易出现的属性混淆问题。

数据方面,团队利用 Diffusion Transformer 固有的上下文生成能力构建了数据合成框架。

团队首先构建了一个包含 365 个顶层类别的分类树,这些类别来自 Object365 数据集。

在每个类别下,还包含了更细粒度的分类,涵盖年龄、职业和着装风格等维度。

然后利用大模型在每个类别中生成丰富多样的主体和场景描述,这些输出与预定义的文本模板结合,可以为文生图模型生成数百万个文本提示。

最终,研究团队设计了一个渐进式的合成管道,从单主体生成开始,逐步过渡到多主体上下文生成。

来自字节智能创作团队

论文显示,UNO 的作者字节智能创作团队。

据介绍,该团队是字节的 AI & 多媒体技术中台,研究方向包括计算机视觉、音视频编辑、特效处理等技术。

之前字节提出的用于提升图像生成模型 "美感" 的 VMix,也是来自智能创作团队,并且作者与这次的 UNO 基本相同。

本次 UNO 的项目负责人是 Fei Ding,是 Vmix 的通讯作者,之前还参与过 Realcustom++、Dreamtuner 等项目的工作。

UNO 的第一作者 Shaojin Wu、通讯作者黄梦琪,之前也都参与过 Vmix。

黄梦琪目前是中科大博士在读,2023 年起至今一直在字节实习,预计今年毕业,导师是毛震东教授。

另外,字节招聘网站显示,智能创作团队目前正在招聘 AIGC 技术专家、多模态算法专家等岗位。

论文地址:
arxiv.org/abs/2504.02...

项目主页:
bytedance.github.io/UNO/

欢迎在评论区留下你的想法!

--- ---

相关推荐
sagima_sdu3 分钟前
CNN:卷积到底做了什么?
人工智能·神经网络·cnn
Dm_dotnet6 分钟前
使用CAMEL实现RAG过程记录
人工智能
听风吹等浪起19 分钟前
第19章:基于efficientNet实现的视频内容识别系统
人工智能·深度学习·音视频
科技小E21 分钟前
视频设备轨迹回放平台EasyCVR打造水库大坝智慧安防视频监控智能分析方案
大数据·网络·人工智能·音视频·安防监控
隐-梵1 小时前
Android studio前沿开发--利用socket服务器连接AI实现前后端交互(全站首发思路)
android·服务器·人工智能·后端·websocket·android studio·交互
亚马逊云开发者1 小时前
生成式 AI 在电商评论场景的应用 : 场景分析和技术选型
人工智能
zxsz_com_cn1 小时前
医疗设备预测性维护的合规性挑战与标准化路径研究
大数据·数据库·人工智能
沙子可可1 小时前
深入学习OpenCV:第一章简介
人工智能·opencv·学习
AI技术控1 小时前
计算机视觉算法实战——基于YOLOv8的农田智能虫情测报灯害虫种类识别系统开发指南
人工智能·深度学习·算法·yolo·计算机视觉
XINVRY-FPGA1 小时前
XC6SLX100T-2FGG484I 赛灵思 XilinxFPGA Spartan-6
c++·人工智能·嵌入式硬件·阿里云·ai·fpga开发·fpga