开放指令编辑创新突破!小米开源 Lego-Edit 登顶 SOTA:用强化学习为 MLLM 编辑开辟全新赛道!

在图像编辑领域,基于指令的编辑因能与用户直接交互而受关注。但现实里用户指令多样,现有方法难以泛化到训练领域外。小米提出的 Lego-Edit 借助多模态大型语言模型(MLLM)的泛化能力,通过两个关键设计应对挑战。一是打造模型级工具包,其中包含在有限数据高效训练的多样模型及多个图像处理函数,让 MLLM 能细粒度组合编辑操作;二是采用三阶段渐进式强化学习方法,利用未注释开放域指令反馈训练 MLLM,使其具备处理现实指令的广义推理能力。Lego-Edit 在 GEdit-Bench 和 ImgBench 上表现最佳,拥有强大开放域指令推理能力,还能无需额外微调就利用新编辑工具。

端到端方法、基于 API 的代理(具有精心策划的工作流程)以及提出方法的比较。

相关链接

论文阅读

基于指令的图像编辑因其与用户的直接交互而备受关注。然而,现实世界中的用户指令种类繁多,现有方法往往无法有效地泛化到其训练领域之外的指令,从而限制了其实际应用。

为了解决这个问题,论文提出了 Lego-Edit,它利用多模态大型语言模型 (MLLM) 的泛化能力,组织了一套模型级编辑工具来应对这一挑战。Lego-Edit 包含两个关键设计:

  1. 一个模型级工具包,其中包含在有限数据上高效训练的多样化模型,以及多个图像处理函数,使 MLLM 能够对编辑操作进行细粒度的组合;

  2. 一种三阶段渐进式强化学习方法,该方法利用未注释的开放域指令的反馈来训练 MLLM,使其具备处理现实世界指令的广义推理能力。

实验表明 Lego-Edit 在 GEdit-Bench 和 ImgBench 上达到了最佳性能。它展现出强大的开放域指令推理能力,并且无需额外微调即可利用新引入的编辑工具。

方法概述

Lego-Edit 的整体框架。给定指令和输入图像,构建器生成工具调用工作流。执行器执行该工作流,调用相应的工具生成编辑后的输出图像。

第 2 阶段(基于 GT 的 RL 训练)采用的奖励设计说明。

第 3 阶段(无 GT RL 训练)采用的奖励设计图。

实验结果

与其他方法在复杂编辑方面的比较(顶部)以及我们的工具组合工作流程(底部)。

通过反馈和工具插入进行反射消除的零样本自适应示例。

ImgEdit-Bench:Lego-Edit 在 ImgBench 上保持了最佳性能,在所有对比方法中获得了最高的总分(3.50)。详细结果如表 1 所示。至关重要的是,该框架在最具挑战性的混合编辑子任务(3.18)中表现出色。这一成功验证了我们的假设,即 Builder 可以将复合指令解析为原子子任务,并动态生成工作流以协调专用工具。

定性结果:如图所示该方法在编辑准确度和视觉真实感方面均优于其他方法。编辑结果与预期区域对齐良好,并保持了较高的感知质量。

结论

本文介绍了一种基于智能体的生成式指令图像编辑框架 Lego-Edit。它采用强化学习微调的多层学习模型(MLLM,Builder)来编排模型级编辑工具(Bricks),该框架基于两项关键创新:允许灵活组合和精确控制的细粒度工具,以及通过对开放域指令进行无生成式指令反馈来增强推理和工具组织能力的三阶段渐进式强化学习训练策略。大量实验证明了 Lego-Edit 在 GEdit-Bench 和 ImgBench 上的最佳性能,在处理灵活请求和集成新工具而无需重新训练方面展现出卓越的准确性和泛化能力。未来的工作将扩展该工具集以实现更广泛的功能,并探索基于智能体的反馈以提高鲁棒性。

相关推荐
水如烟4 小时前
孤能子视角:“组织行为学–组织文化“
人工智能
大山同学4 小时前
图片补全-Context Encoder
人工智能·机器学习·计算机视觉
薛定谔的猫19824 小时前
十七、用 GPT2 中文对联模型实现经典上联自动对下联:
人工智能·深度学习·gpt2·大模型 训练 调优
壮Sir不壮4 小时前
2026年奇点:Clawdbot引爆个人AI代理
人工智能·ai·大模型·claude·clawdbot·moltbot·openclaw
PaperRed ai写作降重助手5 小时前
高性价比 AI 论文写作软件推荐:2026 年预算友好型
人工智能·aigc·论文·写作·ai写作·智能降重
玉梅小洋5 小时前
Claude Code 从入门到精通(七):Sub Agent 与 Skill 终极PK
人工智能·ai·大模型·ai编程·claude·ai工具
-嘟囔着拯救世界-5 小时前
【保姆级教程】Win11 下从零部署 Claude Code:本地环境配置 + VSCode 可视化界面全流程指南
人工智能·vscode·ai·编辑器·html5·ai编程·claude code
正见TrueView5 小时前
程一笑的价值选择:AI金玉其外,“收割”老人败絮其中
人工智能
Imm7775 小时前
中国知名的车膜品牌推荐几家
人工智能·python
风静如云5 小时前
Claude Code:进入dash模式
人工智能