【01 论文概述】

论文标题：

Uniworld-V2:ReinforceImageEditingwithDiffusionNegative-awareFinetuningandMLLMImplicitFeedback

作者团队：北京大学

发布时间：2025 年 10 月 21 日

论文链接：++https://arxiv.org/pdf/2510.16888++

Lab4AI 大模型实验室链接：

++https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq/_edit&id=2b0294f7c8b14a099ced8cce7466f48d++

1.研究背景

当前基于指令的图像编辑虽借助扩散模型取得进展，但仍面临三大核心挑战：

l 监督微调（SFT）的固有缺陷：现有模型多依赖 SFT 训练，易过拟合标注模式，导致泛化能力差（无法突破训练分布）、可控性不足（忽略复杂指令，仅重构输入），且依赖大规模但多样性低的数据集，进一步削弱跨任务的指令保真度。

l 强化学习（RL）在扩散模型中的应用瓶颈：RL 虽为模型对齐人类意图的潜在方向，但现有策略优化方法（如基于似然估计）存在系统偏差，且一阶 SDE 采样器需在"轨迹多样性"与"生成质量"间权衡，难以满足图像编辑对高保真和多样化探索的双重需求。

l 通用奖励模型的缺失：图像编辑指令和任务具有多样性，导致缺乏统一奖励模型。MLLM 虽适合主观评估，但现有 MLLM 评分方法存在缺陷：基于 Chain-of-Thought（CoT）的方法易引入暴露偏差且计算成本高，基于采样的方法信号稀疏，而领域微调需复杂数据集以避免偏差和灾难性遗忘，成本高昂。

2.研究目的

针对上述挑战，本研究旨在：

l 突破SFT 范式的泛化性与可控性限制，解决扩散模型结合 RL 时的策略优化偏差问题；

l 构建通用、低成本、低幻觉的奖励模型，避免依赖复杂数据集或引入额外偏差；

l 提出一套高效的训练后优化框架（Edit-R1），提升不同基础扩散模型（如 UniWorld-V2、Qwen-Image-Edit、FLUX.1-Kontext）在指令图像编辑任务中的性能与泛化能力，同时保证模型无关性（model-agnostic）。通过策略优化方法直接对齐生成过程与人类意图，避免对领域特定奖励模型的依赖。

3.核心贡献

l 提出Edit-R1 训练后优化框架：整合两种关键技术------DiffusionNegative-awareFinetuning（DiffusionNFT，一种与流匹配前向过程一致的无似然策略优化方法，支持黑箱采样器、decouple 训练与采样）和基于预训练 MLLM 的无训练奖励模型，实现扩散模型的高效微调。

l 验证奖励信号的人类对齐性：所设计的MLLM 奖励信号（非 CoT+logit-based 评分）无需训练或复杂推理，能提供与人类偏好高度对齐的反馈，兼具可靠性、低成本与低幻觉特性，有效稳定训练过程。

实证性能提升与泛化能力：实验表明，Edit-R1 可显著提升多种基础模型性能：在 ImgEdit 和 GEdit-Bench 基准上，UniWorld-V2 取得 SOTA 结果（分别为 4.49、7.83），FLUX.1-Kontext[Dev]微调后超越其 Pro 版本，Qwen-Image-Edit[2509]成为开源模型中的 SOTA；同时框架具有模型无关性，可适配不同基础模型。

4. 研究方法

本研究的核心方法围绕Edit-R1 框架展开，包含三大核心组件与完整流程：

l 策略优化：采用DiffusionNFT，一种基于流匹配前向过程的无似然策略优化方法，支持高阶采样器并避免偏差。

l 奖励设计：

使用MLLM 的非 CoTlogit 评分机制，直接计算得分令牌的期望值作为奖励。

通过任务定制化提示词（基础指令+ 任务指令）实现细粒度评估。

l 训练流程：

采样：利用 DPM-Solver 快速生成候选图像组。

评分：MLLM 对编辑结果进行隐式反馈打分。

优化：通过 DiffusionNFT 损失函数更新模型，结合组过滤机制剔除低方差高均值样本。

5.研究结果

5.1 基准测试性能

l ImgEdit 基准：UniWorld-V2 达到 SOTA（4.49 分），Qwen-Image-Edit 提升至 4.48 分，超越闭源模型（如 GPT-Image-1）。

l GEdit-Bench 基准：UniWorld-V2 取得 7.83 分，显著优于基线模型。

l 泛化能力：在域外数据上（如GEdit-Bench），所有基础模型均获得稳定提升。

5.2 人类偏好评估

用户研究表明，优化后的模型在指令遵循和图像质量上更受青睐。微调后的UniWorld-FLUX.1-Kontext 在"指令对齐"维度显著优于 FLUX.1-Kontext[Dev]与 Pro 版本，整体偏好度更高（图 6）。

5.3 消融实验结果

策略优化方法对比：在FLUX.1-Kontext[Dev]上，DiffusionNFT 在 ImgEdit 基准的性能显著优于 Flow-GRPO 及 Flow-GRPO+LocalStd（图 7）。

核心组件贡献：Qwen-Image-Edit[2509]上，仅 DiffusionNFT（7BMLLM）提升至 7.66，32BMLLM 进一步提升至 7.74，加入组过滤后达 7.76（表 3）。

6.总结与展望

本研究针对指令图像编辑的泛化性、可控性及奖励模型难题，提出Edit-R1 框架：通过 DiffusionNFT 实现无似然策略优化，结合无训练的 MLLM 奖励模型（非 CoT+logit-based），解决了 SFT 的过拟合与 RL 策略优化的偏差问题。该框架在 ImgEdit、GEdit-Bench 基准上取得 SOTA，可适配多种基础模型，且奖励信号与人类偏好高度对齐，为指令图像编辑提供了高效、通用的训练后优化方案。

【02 论文原文阅读】

您可以跳转到Lab4AI 平台上去阅读论文原文。

Lab4AI大模型实验室已经提供 该论文，阅读链接：

https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq/_editr1&id=2b0294f7c8b14a099ced8cce7466f48d

文末点击阅读原文 ，即可跳转至对应论文页面。目前，论文的复现工作还在招募中，欢迎各位感兴趣的朋友报名参与复现创作，我们提供一定额度的H800 算力作为奖励。

·Lab4AI.cn覆盖全周期科研支撑平台，提供论文速递、AI翻译和AI导读工具辅助论文阅读；

·支持投稿论文复现和Github项目复现，动手复现感兴趣的论文；

·论文复现完成后，您可基于您的思路和想法，开启论文创新与成果转化。

本文由AI 深度解读，转载请联系授权。关注"大模型实验室 Lab4AI"，第一时间获取前沿 AI 技术解析！

【每日Arxiv热文】北大新框架 Edit-R1 炸场！破解图像编辑 3 大难题，双榜刷 SOTA