开放指令编辑创新突破!小米开源 Lego-Edit 登顶 SOTA:用强化学习为 MLLM 编辑开辟全新赛道!在图像编辑领域,基于指令的编辑因能与用户直接交互而受关注。但现实里用户指令多样,现有方法难以泛化到训练领域外。小米提出的 Lego-Edit 借助多模态大型语言模型(MLLM)的泛化能力,通过两个关键设计应对挑战。一是打造模型级工具包,其中包含在有限数据高效训练的多样模型及多个图像处理函数,让 MLLM 能细粒度组合编辑操作;二是采用三阶段渐进式强化学习方法,利用未注释开放域指令反馈训练 MLLM,使其具备处理现实指令的广义推理能力。Lego-Edit 在 GEdit-Bench 和 ImgBench 上