大模型图像编辑那家强？

最近StepFun团队发布了最先进的图像编辑模型Step1X-Edit，其性能可与 GPT-4o 和 Gemini2 Flash 等闭源模型相媲美。更具体地说，他们采用多模态 LLM 来处理参考图像和用户的编辑指令。提取潜在嵌入并将其与扩散图像解码器集成以获取目标图像。

为了训练模型，构建了数据生成管道来生成高质量的数据集。
为了进行评估，开发了GEdit-Bench，这是一个植根于真实用户指令的全新基准测试。

在 GEdit-Bench 上的实验结果表明，Step1X-Edit 的性能大幅超越现有的开源基线，并接近领先的专有模型的性能，从而为图像编辑领域做出了重大贡献。

模型：huggingface stepfun-ai/Step1X-Edit

在线体验：https://huggingface.co/spaces/stepfun-ai/Step1X-Edit

主要亮点：

Step1X-Edit是一个开源图像编辑模型，通过多模态大语言模型(MLLM)处理参考图像和用户指令，结合扩散图像解码器生成目标图像，性能与闭源模型如GPT-4o相当.
为了训练Step1X-Edit，研究人员构建了一个数据生成流程，生成高质量的数据集，并开发了GEdit-Bench基准测试，该基准基于真实世界的用户指令，用于评估图像编辑模型的性能.
在GEdit-Bench上的实验结果表明，Step1X-Edit在很大程度上优于现有的开源基线，并接近领先的专有模型的性能，为图像编辑领域做出了重大贡献.
本文介绍 Step1X-Edit，一个用于通用图像编辑的实用框架，它旨在缩小开源算法与如 GPT-4o 和 Gemini2 Flash 等闭源模型之间的性能差距。

核心方法：

Step1X-Edit 采用多模态大型语言模型（MLLM），例如 Qwen-VL，来处理参考图像和用户的编辑指令。首先，MLLM 对参考图像和编辑提示进行处理，提取出一个潜在嵌入（latent embedding）。这个潜在嵌入随后被整合到一个基于 Diffusion in Transformer (DiT) 架构的扩散图像解码器中，以生成目标图像。该方法力求在参考图像的重建和编辑提示的遵循之间达到平衡。

该模型的训练从一个文本到图像 (text-to-image) 的模型开始，以保持美学质量和视觉一致性，也可以替换为现有的文本到图像模型，如 SD3 和 FLUX。为了进行对比视觉上下文推理，该模型借鉴了 FLUX-Fill 中引入的token拼接机制。训练过程中，目标图像和参考图像都被输入到系统中。目标图像首先通过 VAE 编码器进行编码，然后加入高斯噪声以增强泛化能力。生成的潜在表示经过线性投影，得到一个图像 token 表示。参考图像则在没有噪声的情况下进行编码和投影。这两个图像 token 集合沿着 token 长度维度进行拼接，形成一个 token 长度翻倍的融合特征，作为最终的视觉输入。在联合学习设置中训练模型，同时优化连接器（connector）和下游 DiT。

为了训练模型，构建了一个数据生成管线，用于生成大规模高质量的数据集。为了评估，开发了一个名为 GEdit-Bench 的新基准，它基于真实世界的用户指令。GEdit-Bench 包括从互联网收集的超过 1000 个用户编辑实例，手动分为 11 个类别，最终筛选出 606 个测试样本，这些样本的参考图像来自真实世界的案例。为了保护隐私，对用户上传的图像进行了去身份化处理。

实验结果：

在 GEdit-Bench 上的实验结果表明，Step1X-Edit 在很大程度上优于现有的开源基线，并接近领先的专有模型的性能。用户偏好研究也表明，Step1X-Edit 能够生成在视觉上令人愉悦且用户偏好的编辑结果。

贡献：

开源 Step1X-Edit 模型。
设计数据生成管线以生成高质量的图像编辑数据。
开发了一个名为 GEdit-Bench的新基准，用于支持更真实和全面的评估。