【多模态MLLMs+图像编辑】MGIE:苹果开源基于指令和多模态大语言模型的图片编辑神器(24.02.03开源)

项目主页:https://mllm-ie.github.io/
论文 :基于指令和多模态大语言模型图片编辑 2309.Guiding Instruction-based Image Editing via Multimodal Large Language Models

代码:https://github.com/apple/ml-mgie | gradio_UI

媒体:机器之心的解析https://mp.weixin.qq.com/s/c87cUuyz4bUgfW2_ma5xpA

网友实测

一些概念

MLLMs: Multimodal large language models

表示多模态大语言模型,是从预训练的LLM(大语言模型)初始化参数,MLLM添加了一个视觉编码器(visual encoder 例如,CLIP-L )来提取视觉特征 f f f,以及一个适配器 W W W将特征 f f f投影到语言模态中。根据论文2304.Visual Instruction Tuning :MLLMs的训练可以概括为:

原文摘要:

基于指令 (Instruction-based)的图像编辑通过自然命令提高了图像操作的可控性和灵活性,而无需详细描述或区域掩模。然而,人类的指令有时过于简短,目前的方法无法捕捉和遵循。多模态大语言模型 (Multimodal large language models (MLLMs))在跨模态理解和视觉感知响应生成方面显示出很好的能力。

我们研究了(investigate) MLLM如何促进编辑指令(instructions),并提出 MLLM 引导的图像编辑 (MGIE)。

MGIE学习推导表达指令(derive expressive instructions)并提供明确指导(explicit guidance)。编辑模型 共同捕获这种视觉想象,并通过端到端训练执行操作。我们评估了photoshop方式的修改全局照片优化局部编辑的各个方面。

大量的实验结果表明,表达性指令对于基于指令的图像编辑至关重要,我们的MGIE可以在保持竞争性推理效率的同时显著改善自动度量和人工评估。

Instruction-based image editing improves the controllability and flexibility of image manipulation via natural commands without elaborate descriptions or regional masks. However, human instructions are sometimes too brief for current methods to capture and follow. Multimodal large language models (MLLMs) show promising capabilities in cross-modal understanding and visual-aware response generation via LMs. We investigate how MLLMs facilitate edit instructions and present MLLM-Guided Image Editing (MGIE). MGIE learns to derive expressive instructions and provides explicit guidance. The editing model jointly captures this visual imagination and performs manipulation through end-to-end training. We evaluate various aspects of Photoshop-style modification, global photo optimization, and local editing. Extensive experimental results demonstrate that expressive instructions are crucial to instruction-based image editing, and our MGIE can lead to a notable improvement in automatic metrics and human evaluation while maintaining competitive inference efficiency.

主要方法

使用的MLLMs预训练模型: https://github.com/haotian-liu/LLaVA#llava-weights

微调了

图 2:MLLM 引导的图像编辑 (MGIE) 概述,它利用 MLLM 来增强基于指令的图像编辑。MGIE学习推导出简洁的表达指令(concise expressive),并为预期目标提供明确的视觉相关指导。扩散模型以端到端的方式通过编辑头联合训练和实现具有潜在想象的图像编辑。

相关工作

与主流方法对比

算法流程

算法 1 展示了 MGIE 学习过程。MLLM 通过指令损失 L_ins 导出简洁指令 ε。借助 [IMG] 的潜在想象,图片转变其模态并引导 图片合成结果图像。编辑损失 L_edit 用于扩散训练。由于大多数权重可以被冻结(MLLM 内的自注意力块),因而可以实现参数高效的端到端训练。

公式2

公式5

相关推荐
老吴学AI2 分钟前
系列报告十三:(MTB)Physical AI: Shaping the Market of the New Possible — 2025 Report
大数据·人工智能·具身智能·vc·投融资
Suahi5 分钟前
【HuggingFace LLM】训练分词器简析
人工智能·自然语言处理
roman_日积跬步-终至千里7 分钟前
【深度学习-实验】花卉识别:用少量数据构建多分类系统的设计思路
人工智能·深度学习·分类
AAD5558889911 分钟前
【电力设备检测】YOLO11-LQEHead绝缘子缺陷检测与分类系统实现
人工智能·分类·数据挖掘
renhongxia119 分钟前
学习基于数字孪生的质量预测与控制
人工智能·深度学习·学习·语言模型·自然语言处理·制造
Ulyanov21 分钟前
高级可视化技术——让PyVista数据展示更专业
开发语言·前端·人工智能·python·tkinter·gui开发
昨夜见军贴061624 分钟前
IACheck × AI审核赋能5G远程检测:实时视频传输质量
人工智能·5g
Coovally AI模型快速验证30 分钟前
2026 CES 如何用“视觉”改变生活?机器的“视觉大脑”被点亮
人工智能·深度学习·算法·yolo·生活·无人机
用户51914958484530 分钟前
深入解析CVE-2025-59528:Flowise中的高危远程代码执行漏洞
人工智能·aigc
洞见新研社33 分钟前
新能源汽车2026前瞻,“量变”到“质变”的分水岭
人工智能