USO“,一种基于分离和奖励学习的新方法:走在将风格和主题融为一体的图像生成的最前沿

概述

近年来,"风格驱动生成 "和 "主题驱动生成 "作为图像生成中的两个独立问题被研究。

前者强调参考图像的风格,而后者侧重于保持人物或物体的一致性,两者被视为对立的。

然而,本文认为可以将两者视为统一的。

原因在于,这两项任务无非都是将 "内容 "和 "风格 "进行分离和重新组合的任务。

因此,作者提出了 USO(统一风格-主体优化)模型。

USO 建立了一个大型三元组数据集(内容图像、风格图像和风格应用图像),并进一步将风格对齐学习和内容-风格分离学习结合起来风格对齐学习和内容-风格分离学习。

此外,还引入了风格奖励学习(SRL),以增强风格保真度。

作者还建立了一个新的基准--USO-Bench,以同时评估风格相似性和主题一致性。

实验结果表明,USO 优于传统方法,在风格和主题一致性方面都达到了最先进的水平。

建议的方法

USO 的核心思想是将风格驱动任务和主题驱动任务作为 "互补任务 "同时学习。

首先,作者构建了一个跨任务三元组保存框架(Cross-Task Triplet Curation Framework)。

这是一种使用风格化专用模型和去风格化模型自动生成三重数据(参考风格图像、主题参考图像和风格应用结果图像)的机制。

接下来是统一定制框架 统一定制框架(USO)。

学习分为两个阶段。

在第一阶段,使用 SigLIP 编码器和分层投影仪进行风格对齐训练,确保能够准确提取风格特征。

在第二阶段,内容和风格图像被输入到不同的编码器中,以执行内容-风格分离训练(Content-Style Disentanglement Training),避免不必要的特征污染。

此外,还引入了风格奖励学习(SRL),将生成的结果与参考风格的接近程度作为奖励信号反映在训练中。

这成功地同时提高了风格保真度和主体一致性。

实验

为了测试所提方法的有效性,作者使用新构建的 USO-Bench 和现有的 DreamBench 进行了大规模实验。

USO-Bench 是一个结合了 50 种不同内容图像和 50 种不同风格图像的基准,可以全面评估主题驱动、风格驱动和两者结合的任务。

评估指标包括衡量主题一致性的 CLIP-I 和 DINO、衡量风格相似性的 CSD 以及衡量文本和图像一致性的 CLIP-T。

实验结果表明,USO 在主题驱动和风格驱动任务中的表现均优于现有方法,尤其是在同时处理风格和主题的复杂任务中,表现出了显著的性能提升。

在定量评估中,CSD 和 CLIP-T 的得分最高;在定性评估中,USO 忠实地再现了各种绘画风格,同时保留了主体的外观。

此外,消融实验证实,风格奖励学习和分层投影对性能的提高有很大帮助。

总之,可以得出结论,USO 是一种最先进的统一生成模型,可以同时实现风格和主题。

相关推荐
Agent手记16 小时前
安全生产巡检全流程自动化与隐患预警方案:2026工业Agent落地实战指南
数据库·人工智能·安全·ai·自动化
SEO_juper16 小时前
语音搜索 GEO 优化,口语化英文短句布局玩法
人工智能·seo·geo·谷歌优化·2026·谷歌算法更新·口语化
szxinmai主板定制专家16 小时前
RK3568 + CODESYS+实时系统运动控制器PLC,支持 AI 视觉目标检测,预测性维护,混合多系统部署,多路模拟量采集
arm开发·人工智能·嵌入式硬件·fpga开发
大囚长16 小时前
自由能原理与预测处理的理论解析及其跨领域启示
人工智能·数学建模
Want59516 小时前
数字人场景落地:企业展厅 / 指挥大屏从展示到服务
人工智能·数字人
工业机器人销售服务16 小时前
伯朗特机器人集成智能料库,为多台激光切割机提供24小时不间断的板材上下料服务
人工智能
前端若水16 小时前
从零开始学习AI Agent的实战路线图
人工智能·学习
ting945200016 小时前
Vivago Video Agent 技术深度解析:大模型驱动的叙事视频全链路生成
人工智能·音视频
鸽芷咕16 小时前
MuMu模拟器接入AI工具,三步实现自然语言控制
人工智能
wb0430720116 小时前
氛围编程的冷思考:当“感觉“遇上“规范“——为何 Vibe Coding 并非企业级开发的万能药
大数据·人工智能