开放指令编辑创新突破!小米开源 Lego-Edit 登顶 SOTA:用强化学习为 MLLM 编辑开辟全新赛道!

在图像编辑领域,基于指令的编辑因能与用户直接交互而受关注。但现实里用户指令多样,现有方法难以泛化到训练领域外。小米提出的 Lego-Edit 借助多模态大型语言模型(MLLM)的泛化能力,通过两个关键设计应对挑战。一是打造模型级工具包,其中包含在有限数据高效训练的多样模型及多个图像处理函数,让 MLLM 能细粒度组合编辑操作;二是采用三阶段渐进式强化学习方法,利用未注释开放域指令反馈训练 MLLM,使其具备处理现实指令的广义推理能力。Lego-Edit 在 GEdit-Bench 和 ImgBench 上表现最佳,拥有强大开放域指令推理能力,还能无需额外微调就利用新编辑工具。

端到端方法、基于 API 的代理(具有精心策划的工作流程)以及提出方法的比较。

相关链接

论文阅读

基于指令的图像编辑因其与用户的直接交互而备受关注。然而,现实世界中的用户指令种类繁多,现有方法往往无法有效地泛化到其训练领域之外的指令,从而限制了其实际应用。

为了解决这个问题,论文提出了 Lego-Edit,它利用多模态大型语言模型 (MLLM) 的泛化能力,组织了一套模型级编辑工具来应对这一挑战。Lego-Edit 包含两个关键设计:

  1. 一个模型级工具包,其中包含在有限数据上高效训练的多样化模型,以及多个图像处理函数,使 MLLM 能够对编辑操作进行细粒度的组合;

  2. 一种三阶段渐进式强化学习方法,该方法利用未注释的开放域指令的反馈来训练 MLLM,使其具备处理现实世界指令的广义推理能力。

实验表明 Lego-Edit 在 GEdit-Bench 和 ImgBench 上达到了最佳性能。它展现出强大的开放域指令推理能力,并且无需额外微调即可利用新引入的编辑工具。

方法概述

Lego-Edit 的整体框架。给定指令和输入图像,构建器生成工具调用工作流。执行器执行该工作流,调用相应的工具生成编辑后的输出图像。

第 2 阶段(基于 GT 的 RL 训练)采用的奖励设计说明。

第 3 阶段(无 GT RL 训练)采用的奖励设计图。

实验结果

与其他方法在复杂编辑方面的比较(顶部)以及我们的工具组合工作流程(底部)。

通过反馈和工具插入进行反射消除的零样本自适应示例。

ImgEdit-Bench:Lego-Edit 在 ImgBench 上保持了最佳性能,在所有对比方法中获得了最高的总分(3.50)。详细结果如表 1 所示。至关重要的是,该框架在最具挑战性的混合编辑子任务(3.18)中表现出色。这一成功验证了我们的假设,即 Builder 可以将复合指令解析为原子子任务,并动态生成工作流以协调专用工具。

定性结果:如图所示该方法在编辑准确度和视觉真实感方面均优于其他方法。编辑结果与预期区域对齐良好,并保持了较高的感知质量。

结论

本文介绍了一种基于智能体的生成式指令图像编辑框架 Lego-Edit。它采用强化学习微调的多层学习模型(MLLM,Builder)来编排模型级编辑工具(Bricks),该框架基于两项关键创新:允许灵活组合和精确控制的细粒度工具,以及通过对开放域指令进行无生成式指令反馈来增强推理和工具组织能力的三阶段渐进式强化学习训练策略。大量实验证明了 Lego-Edit 在 GEdit-Bench 和 ImgBench 上的最佳性能,在处理灵活请求和集成新工具而无需重新训练方面展现出卓越的准确性和泛化能力。未来的工作将扩展该工具集以实现更广泛的功能,并探索基于智能体的反馈以提高鲁棒性。

相关推荐
37手游后端团队3 小时前
Claude Code Review:让AI审核更懂你的代码
人工智能·后端·ai编程
Macre Aegir Thrym3 小时前
MINIST——SVM
算法·机器学习·支持向量机
PKNLP3 小时前
聚类之KMeans
机器学习·kmeans·聚类
源代码杀手4 小时前
深入解析 Spec Kit 工作流:基于 GitHub 的 Spec-Driven Development 实践
人工智能·github
java1234_小锋4 小时前
TensorFlow2 Python深度学习 - TensorFlow2框架入门 - 计算图和 tf.function 简介
python·深度学习·tensorflow·tensorflow2
szxinmai主板定制专家4 小时前
基于 ZYNQ ARM+FPGA+AI YOLOV4 的电网悬垂绝缘子缺陷检测系统的研究
arm开发·人工智能·嵌入式硬件·yolo·fpga开发
聚客AI5 小时前
🌈提示工程已过时?上下文工程从理论到实践的完整路线图
人工智能·llm·agent
C嘎嘎嵌入式开发5 小时前
(二) 机器学习之卷积神经网络
人工智能·机器学习·cnn
红宝村村长5 小时前
【学习笔记】从零构建大模型
深度学习