开放指令编辑创新突破！小米开源 Lego-Edit 登顶 SOTA：用强化学习为 MLLM 编辑开辟全新赛道！

在图像编辑领域，基于指令的编辑因能与用户直接交互而受关注。但现实里用户指令多样，现有方法难以泛化到训练领域外。小米提出的 Lego-Edit 借助多模态大型语言模型（MLLM）的泛化能力，通过两个关键设计应对挑战。一是打造模型级工具包，其中包含在有限数据高效训练的多样模型及多个图像处理函数，让 MLLM 能细粒度组合编辑操作；二是采用三阶段渐进式强化学习方法，利用未注释开放域指令反馈训练 MLLM，使其具备处理现实指令的广义推理能力。Lego-Edit 在 GEdit-Bench 和 ImgBench 上表现最佳，拥有强大开放域指令推理能力，还能无需额外微调就利用新编辑工具。

端到端方法、基于 API 的代理（具有精心策划的工作流程）以及提出方法的比较。

论文阅读

基于指令的图像编辑因其与用户的直接交互而备受关注。然而，现实世界中的用户指令种类繁多，现有方法往往无法有效地泛化到其训练领域之外的指令，从而限制了其实际应用。

为了解决这个问题，论文提出了 Lego-Edit，它利用多模态大型语言模型 (MLLM) 的泛化能力，组织了一套模型级编辑工具来应对这一挑战。Lego-Edit 包含两个关键设计：

一个模型级工具包，其中包含在有限数据上高效训练的多样化模型，以及多个图像处理函数，使 MLLM 能够对编辑操作进行细粒度的组合；
一种三阶段渐进式强化学习方法，该方法利用未注释的开放域指令的反馈来训练 MLLM，使其具备处理现实世界指令的广义推理能力。

实验表明 Lego-Edit 在 GEdit-Bench 和 ImgBench 上达到了最佳性能。它展现出强大的开放域指令推理能力，并且无需额外微调即可利用新引入的编辑工具。

方法概述

Lego-Edit 的整体框架。给定指令和输入图像，构建器生成工具调用工作流。执行器执行该工作流，调用相应的工具生成编辑后的输出图像。

第 2 阶段（基于 GT 的 RL 训练）采用的奖励设计说明。

第 3 阶段（无 GT RL 训练）采用的奖励设计图。

实验结果

与其他方法在复杂编辑方面的比较（顶部）以及我们的工具组合工作流程（底部）。

通过反馈和工具插入进行反射消除的零样本自适应示例。

ImgEdit-Bench：Lego-Edit 在 ImgBench 上保持了最佳性能，在所有对比方法中获得了最高的总分（3.50）。详细结果如表 1 所示。至关重要的是，该框架在最具挑战性的混合编辑子任务（3.18）中表现出色。这一成功验证了我们的假设，即 Builder 可以将复合指令解析为原子子任务，并动态生成工作流以协调专用工具。

定性结果：如图所示该方法在编辑准确度和视觉真实感方面均优于其他方法。编辑结果与预期区域对齐良好，并保持了较高的感知质量。

结论

本文介绍了一种基于智能体的生成式指令图像编辑框架 Lego-Edit。它采用强化学习微调的多层学习模型（MLLM，Builder）来编排模型级编辑工具（Bricks），该框架基于两项关键创新：允许灵活组合和精确控制的细粒度工具，以及通过对开放域指令进行无生成式指令反馈来增强推理和工具组织能力的三阶段渐进式强化学习训练策略。大量实验证明了 Lego-Edit 在 GEdit-Bench 和 ImgBench 上的最佳性能，在处理灵活请求和集成新工具而无需重新训练方面展现出卓越的准确性和泛化能力。未来的工作将扩展该工具集以实现更广泛的功能，并探索基于智能体的反馈以提高鲁棒性。

开放指令编辑创新突破！小米开源 Lego-Edit 登顶 SOTA：用强化学习为 MLLM 编辑开辟全新赛道！

相关链接

论文阅读

方法概述

实验结果

结论