GPT-4o 级图像生成的民主化:Janus-4o 和 ShareGPT-4o-Image 挑战

概述

本文构建了一个名为 "ShareGPT-4o-Image "的新的大规模合成数据集,目的是将 GPT-4o 的高级图像生成功能转移到一个开源的多模态模型中。此外,还提出了一个使用该模型的多模态大规模语言模型 "Janus-4o"。

ShareGPT-4o-Image 由 45,000 个文本的图像生成数据和 46,000 个使用图像和文本的图像转换数据组成,这两个数据都是使用 GPT-4o-Image 生成的高质量样本。根据这些数据对现有的 Janus-Pro 模型进行微调后,Janus-4o 不仅能从文本生成图像,还能编辑图像(从文本+图像输入生成图像)。值得注意的是,只需 91K 个样本和 6 个小时的训练,Janus-4o 的性能就能超越以前的模型。

这项研究为高性能图像生成技术的民主化做出了贡献,是加速开放式多模态研究的重要一步。

建议的方法

ShareGPT-4o-Image 是一个合成数据集,旨在模仿和提炼 GPT-4o-Image 的功能。该数据通过两种生成方案创建。

一种是 "提示驱动",即定义属性(如对象、背景、风格),LLM 据此生成自然语言提示,GPT-4o-Image 据此输出图像。另一种是 "图像驱动",即 LLM 根据现有图像生成详细描述,并将其与图像配对以创建数据。图像编辑数据由原始图像、编辑说明和编辑图像三部分组成,基于 14 个不同的任务,涵盖了大量的样式转换和元素添加。

然后,利用该数据集对现有的 Janus-Pro 模型进行微调,从而开发出 Janus-4o,该模型的结构既适用于纯文本输入,也适用于文本+图像组合输入,旨在为每种输入提供适当的表征学习。

实验

Janus-4o 的性能在两个任务中进行了评估:从文本生成图像和图像编辑。

在从文本生成图像方面,使用了 GenEval 和 DPG-Bench 基准来衡量构图一致性和视觉保真度。结果显示,与 Janus-Pro 相比,GenEval 的性能提高了 4 个百分点,DPG-Bench 的性能提高了 1.6 个百分点。

同时,ImgEdit-Bench 基准对图像编辑能力进行了评估,该基准在移动变化和风格转换等详细编辑项目上获得了高分。尤其值得注意的是,在使用少量训练数据(91K)的情况下,其性能与其他使用超过 400 万数据的模型相当,甚至超过了它们。

此外,人类评估实验清楚地表明,在生成图像的视觉吸引力和教学保真度方面,Janus-4o 明显优于 Janus-Pro 和 UltraEdit。这证明了 ShareGPT-4o-Image 的高数据质量及其有效性。

相关推荐
MoRanzhi12032 小时前
Pillow 图像滤波、卷积与边缘处理
图像处理·python·计算机视觉·pillow·卷积·边缘检测·图像滤波
sali-tec2 小时前
C# 基于OpenCv的视觉工作流-章32-圆环卷收
图像处理·人工智能·opencv·算法·计算机视觉
Sagittarius_A*4 小时前
小波变换:多分辨率分析与图像小波去噪 / 增强 / 融合【计算机视觉】
图像处理·人工智能·python·opencv·计算机视觉·小波变换
嵌入式-老费5 小时前
Linux camera驱动开发(ARM、FPGA、DDR共享总线)
图像处理·驱动开发·fpga开发
weixin_480641615 小时前
一款全能型 AI 设计修图工具实测:椒图 AI,Nano Banana Pro 加持,电商 / 修图 / 设计一站式解决
大数据·图像处理·人工智能·ai作画·stable diffusion·aigc·midjourney
不懒不懒5 小时前
【OpenCV 图像处理从入门到实战:核心功能全解析】
图像处理·人工智能·opencv
Sagittarius_A*5 小时前
图像去雾:从直方图增强到暗通道先验【计算机视觉】
图像处理·人工智能·python·opencv·计算机视觉·图像去雾·暗通道先验
良许Linux15 小时前
图像处理和计算机视觉
图像处理·人工智能·计算机视觉
小白_史蒂夫15 小时前
【图像处理】(四)TV图像修复方法(附matlab代码)
图像处理·人工智能·matlab
纤纡.15 小时前
玩转 OpenCV 图像处理:从边界填充到图像滤波全解析
图像处理·人工智能·opencv