亚马逊提出FlowFixer,商品图生成告别模糊Logo和错字,电商广告的“最后一公里”神器来了!

在AI生成图像(AIGC)领域,虽然技术日新月异,但生成的商品图常常面临一个尴尬问题:Logo模糊、文字错乱、细节丢失。这些看似微小的瑕疵,却足以让生成的图像在电商、广告等商业场景中失去实用价值。亚马逊与韩国大学联合推出的FlowFixer模型,正是为解决这一痛点而生。它通过"图像到图像"的翻译和修复技术,让AI生成的图像在保持整体场景构图和风格的同时,完美复现参考图中的精细细节,为AIGC的商业化落地扫清了障碍。

相关链接

论文介绍

FlowFixer模型针对主体驱动生成(Subject-Driven Generation, SDG)技术中的细节丢失问题,提出了一种创新的后处理解决方案。它不依赖难以收集的配对数据,而是通过"一步去噪"自监督法生成训练数据,绕开模糊的文字提示,直接利用参考图指导修复,实现了高效、精准的细节保真。

方法概述

FlowFixer概述。FlowFixer通过以下方式增强SDG图像:恢复图像中精细的主体细节,并以原始主体图像作为参考。FlowFixer将自己定位为一个"插件式"的后处理模型。用户可以先使用任何喜欢的SDG模型(如FLUX.1、Qwen)生成图像,然后将生成图(I_gen)和原始的主体参考图(I_ref)一起输入FlowFixer。FlowFixer的任务是在不改变生成图整体场景构图和风格的前提下,将参考图中的精细细节"贴"回生成图,输出修复后的图像。

FlowFixer推理流程。该模型接受两个条件输入:参考对象图像Iref和来自任意SDG模型生成的图像Igen。然后,模型生成一个保留全局布局的精细化结果bIgen。为了加快推理速度,我们可以选择仅对Igen中以对象为中心的裁剪区域进行精细化,并使用泊松图像融合将其重新融合。

单步去噪失真示例。对于每个失真级别,对 10 个退化样本计算逐像素方差图。插图显示了示例输出,失真集中在高频区域。

实验结果

对 FidelityBench-258K 数据集上的主体保真度改进方法进行定性比较。完整图像中的插图显示了参考主体图像,红色和绿色方框指示了放大区域。放大视图的区域取自 SDG 基线图像,并且所有方法均裁剪了相同的区域。

  1. 大规模评测基准:FidelityBench-258K

团队构建了一个大规模的细节保真度评测基准FidelityBench-258K,涵盖了2.9万个不同的主体和生成的描述,并在FLUX.1、Qwen、Nano Banana这三个主流SDG模型上生成了图像。

  1. 量化结果

FlowFixer在所有三个SDG基线模型上,AKI和K_Gain都大幅领先于其他方法。平均K_Gain达到77.3%,意味着在超过四分之三的情况下它都能成功提升细节。

  1. 视觉效果对比

    与其他方法相比,FlowFixer是唯一一个既能精准恢复包装盒上的文字和图案、人脸的身份特征,又丝毫没有改变原图背景布局和光照风格的方法。其他方法要么改动太大,要么修复了个寂寞。

  2. 人类主观评测与大模型自动评测

人类主观评测(A/B测试)和大模型(Claude 3.7)自动评测的结果,都与AKI/K_Gain指标高度一致,进一步验证了这些新指标的有效性。在超过60%的对比中,人类都更偏好FlowFixer的结果。

结论

FlowFlowFixer模型为高保真SDG领域带来突破,不仅攻克了细节保真这一技术瓶颈,还提供了涵盖数据制造、模型设计、评估指标的系统解决方案。在AIGC追求"艺术感"的当下,FlowFixer回归"精准"与"可用性",对电商、广告等商业场景的落地意义重大。然而,它也面临挑战,如扩展至视频生成、处理极端形变等,值得探索。此外,FlowFixer启示我们:"图像-图像"指令或更高效;"一步去噪"伪数据生成法展现数据制造智慧;关键点匹配指标的成功,提醒我们需设计更细粒度、面向目标的评估体系,以推动生成任务不断发展。

相关推荐
芯智工坊2 小时前
第1章 Mosquitto简介与MQTT协议概述
人工智能·开源
coft2 小时前
Harness Engineering 最佳实践:从概念到落地的完整操作手册
人工智能
zhjadsf2 小时前
模型量化基础知识 - PTQ - 训练后量化
人工智能
Storynone2 小时前
【踩坑笔记】Geforce RTX5060 显卡对应的 Pytorch 安装
人工智能·pytorch·笔记
是馒头阿2 小时前
90、馒头谈自处
深度学习·神经网络·脑机接口·神经同步采集与刺激平台·植入式脑机接口
Deepoch2 小时前
Deepoc 具身模型开发板:重构机械臂扫地机智能清洁新范式
人工智能·科技·机械臂·具身模型·deepoc·扫地机
技术小黑2 小时前
TensorFlow学习系列09 | 优化猫狗识别
人工智能·学习·tensorflow
指掀涛澜天下惊2 小时前
AI 基础知识十三 Transformer注意力机制(Attention)
人工智能·深度学习·机器学习·transformer·q k v
weifont2 小时前
太烧token了,我用Ai写了一个vscode的插件wps-editor(已开源)
人工智能·vscode·wps