FireRed-Image-Edit:小红书出品开源图像编辑基础模型!五大基准全面SOTA

FireRed-Image-Edit:小红书出品开源图像编辑基础模型!五大基准全面SOTA,Agent多元素融合+专业美妆+30GB显存4.5秒出图,碾压闭源!

💡 小红书智能创作基础技术团队出品,Apache 2.0 开源。不是又一个 Flux 换皮------而是一个从 T2I 骨干原生注入编辑能力的图像编辑基础模型。开源 SOTA 身份一致性,Agent 驱动 10+ 元素自由融合,数十种专业美妆风格 LoRA,高保真文字风格参考,老照片修复,ComfyUI 原生节点 + GGUF 轻量格式,蒸馏+量化+静态编译三件套 30GB 显存 4.5s 出图,Backbone-Agnostic 架构可迁移任意 T2I 基座,自建 REDEdit-Bench 1673 对中英评测对。

📌 目录

  • [1. FireRed-Image-Edit 是什么?](#1. FireRed-Image-Edit 是什么?)
  • [2. 核心设计理念](#2. 核心设计理念)
  • [3. 五大编辑能力](#3. 五大编辑能力)
  • [4. 极致工程优化](#4. 极致工程优化)
  • [5. Agent 智能工作流](#5. Agent 智能工作流)
  • [6. 基准评测:开源 SOTA + 超越闭源](#6. 基准评测:开源 SOTA + 超越闭源)
  • [7. 快速上手](#7. 快速上手)
  • [8. LoRA 训练生态](#8. LoRA 训练生态)
  • [9. 竞品对比](#9. 竞品对比)
  • [10. 总结与推荐](#10. 总结与推荐)

1. FireRed-Image-Edit 是什么?

FireRed-Image-Edit 是小红书智能创作基础技术团队出品的开源图像编辑基础模型。

一句话总结

复制代码
FireRed-Image-Edit = 小红书出品开源图像编辑基础模型
  = Apache 2.0 协议
  = 开源 SOTA 身份一致性
  = Agent 驱动 10+ 元素自由融合
  = 数十种专业美妆风格 LoRA
  = 高保真文字风格参考(可比闭源)
  = 专业老照片修复
  = 30GB VRAM + 4.5s/张(蒸馏+量化+静态编译)
  = ComfyUI 原生节点 + GGUF 轻量格式
  = Backbone-Agnostic(Pretrain→SFT→RL 全流程注入)
  = REDEdit-Bench 自建评测(1673 对中英 15 类)
  = ImgEdit / GEdit / REDEdit 三大基准开源第一
  = 部分维度超越闭源(Nano-Banana / Seedream)

2. 核心设计理念

复制代码
🆔 身份一致性 SOTA → 角色跨复杂编辑保持可识别
🧩 多元素融合 → Agent 自动裁剪拼接,10+ 元素自由组合
💄 专业美妆 → 数十种风格,从日常到创意全覆盖
📝 文字风格 → 高保真排版,可比闭源方案
🖼️ 照片修复 → 老照片高质量修复+细节恢复
⚡ 极速推理 → 30GB VRAM,4.5s/张
🏗️ 骨干无关 → 编辑能力可迁移任意 T2I 基座

3. 五大编辑能力

🆔 身份一致性(Identity Consistency)

复制代码
✅ 开源 SOTA 角色身份保持
✅ 复杂编辑下人物依然可识别
✅ 人像一致性 v1.1 进一步优化

🧩 多元素融合(Multi-Element Fusion)

复制代码
✅ 10+ 元素自由组合
✅ Agent 自动 ROI 检测 + 裁剪拼接
✅ 无需挣扎于短提示词
✅ v1.1 多元素融合进一步优化

示例:橄榄球场 + 黑色夹克 + 迷彩裤 + AJ1 + 旅行包 + 滑板 + 斗牛犬 + 奖杯 + 耳机
→ 一句话描述,Agent 自动处理

💄 专业美妆(Portrait Makeup)

复制代码
✅ 数十种风格 LoRA
✅ 专业美颜修图
✅ 黄/橄榄肤色提亮
✅ 万圣节女巫妆 + 创意妆容
✅ v1.1 美妆效果进一步优化

示例1:欧美 Y2K 妆(冷白皮哑光粉底 + 亮片银灰眼影 + 黑色上扬眼线 + 镜面玻璃唇釉)
示例2:缎光底妆(缎光粉底 + 深棕色眼影 + 红色豆沙口红 + 银色高光)

📝 文字风格参考(Text Style Reference)

复制代码
✅ 高保真排版
✅ 风格化文字可比闭源方案
✅ v1.1 风格化文字参考进一步优化
✅ 专用 LoRA:FireRed-Image-Edit-Covercraft

🖼️ 专业照片修复(Photo Restoration)

复制代码
✅ 高质量老照片修复
✅ 优秀细节恢复
✅ 增强处理

4. 极致工程优化

⚡ 极速推理

复制代码
加速三件套:
  1. 蒸馏(Distilled Lora)→ 少步生成
  2. 量化(Quantization)→ 显存降低
  3. 静态编译(Static Compilation)→ 推理加速

结果:
  ✅ 30GB VRAM
  ✅ ~4.5s/张
  ✅ 一行命令启用:python inference.py --optimized True

🔌 通用部署

复制代码
✅ ComfyUI 原生节点支持
✅ GGUF 轻量格式兼容
✅ HuggingFace Diffusers
✅ 无缝生产集成

🏋️ 高效训练

复制代码
✅ 离线特征预提取
  → VLM 推理与训练完全解耦
  → 消除生成开销,最大化收敛速度
✅ HSDP / FSDP 分布式训练
✅ Disaggregated Training
✅ Multi-Condition Aware Bucket Sampler

🏗️ Backbone-Agnostic 架构

复制代码
编辑能力注入方式:
  Pretrain → SFT → RL 全流程

✅ 可迁移到任意 T2I 基座模型
✅ 不绑定特定骨干网络
✅ 未来可跟随更强大的 T2I 模型升级

5. Agent 智能工作流

原生支持 1-3 张图,超过 3 张图时 Agent 自动介入:

复制代码
步骤一:ROI Detection(感兴趣区域检测)
  → 所有图 + 用户指令 → Gemini Function-Calling
  → 返回每张图最相关区域的边界框

步骤二:Crop & Stitch(裁剪拼接)
  → 每张图裁剪到 ROI
  → 分区拼接为 2-3 张合成图(≈1024×1024)
  → 最小化空白 + 最大化内容分辨率

步骤三:Recaption(指令重写)
  → 重写用户指令,使图片引用指向新的合成图
  → 扩展提示词至 ~512 字/字符
  → 保留用户原始语言

Recaption LLM Provider

Provider 说明
Gemini(默认) 多模态必须,ROI 检测始终用 Gemini
MiniMax MiniMax-M2.7 / M2.7-highspeed
OpenAI Compatible 任何兼容 API

💡 LLM API 非必需。不设置时 Agent 仍会执行 ROI 检测和图片拼接,仅跳过指令重写步骤。


6. 基准评测:开源 SOTA + 超越闭源

四大基准成绩

模型 ImgEdit_O ↑ GEdit_O ↑ (EN) GEdit_O ↑ (CN) REDEdit ↑ (EN) REDEdit ↑ (CN)
🔹 闭源模型
Nano-Banana 4.29 7.291 7.399 4.15 4.13
Seedream 4.0 4.30 7.701 7.692 4.18 4.15
Seedream 4.5 4.32 7.820 7.800 4.20 4.18
Nano-Banana-Pro 4.37 7.738 7.799 4.42 4.48
🔹 开源模型
Step1X-Edit-v1.2 3.95 7.480 7.467 --- ---
Qwen-Image-Edit-2509 4.31 7.480 7.467 3.99 4.00
FLUX.2 Dev 4.35 7.413 7.278 4.07 4.05
LongCat-Image-Edit 4.45 7.748 7.731 4.12 4.12
Qwen-Image-Edit-2511 4.51 7.877 7.819 4.23 4.18
🔥 FireRed-Image-Edit 4.56 7.943 7.887 4.26 4.33

关键发现

复制代码
🏆 ImgEdit_O:4.56 --- 开源第一,超越所有闭源模型
🏆 GEdit_O (EN):7.943 --- 开源第一,超越 Seedream 4.5
🏆 GEdit_O (CN):7.887 --- 开源第一
🏆 REDEdit (EN):4.26 --- 开源第一
🏆 REDEdit (CN):4.33 --- 开源第一,超越 Nano-Banana-Pro 以外所有闭源

→ 五项指标全部开源第一
→ 部分维度超越闭源(ImgEdit_O 超越 Nano-Banana-Pro 4.37→4.56)
→ 人类评估进一步证实:提示词跟随 + 视觉一致性领先

7. 快速上手

安装

bash 复制代码
pip install -r requirements.txt

基础推理

bash 复制代码
python inference.py \
    --input_image ./examples/edit_example.png \
    --prompt "在书本封面Python的下方,添加一行英文文字2nd Edition" \
    --output_image output_edit.png \
    --seed 43

极速推理(30GB VRAM + 4.5s/张)

bash 复制代码
python inference.py --optimized True

Agent 多图编辑

bash 复制代码
# 设置 Recaption LLM(可选)
export GEMINI_API_KEY="your-key"          # Gemini(默认)
# 或
export RECAPTION_PROVIDER="minimax"
export MINIMAX_API_KEY="your-key"         # MiniMax
# 或
export RECAPTION_PROVIDER="openai_compatible"
export OPENAI_COMPATIBLE_API_KEY="your-key"
export OPENAI_COMPATIBLE_BASE_URL="https://your-api.example.com/v1"
export OPENAI_COMPATIBLE_MODEL="your-model"

ComfyUI

复制代码
✅ 原生 ComfyUI 节点支持
→ 下载 FireRed-Image-Edit-1.0-ComfyUI 工作流
→ https://huggingface.co/FireRedTeam/FireRed-Image-Edit-1.0-ComfyUI

8. LoRA 训练生态

复制代码
✅ 完整训练代码开源
✅ 自定义风格创建
✅ 优化采样器最大化 GPU 效率
✅ ModelScope 支持 LoRA 在线训练
✅ LoRA Zoo:
   - FireRed-Image-Edit-Makeup.safetensors(美妆)
   - FireRed-Image-Edit-Covercraft.safetensors(文字风格)

训练流程:
  步骤一:离线提取 VLM Embeddings
    → 对图片-文本 JSONL 运行离线提取
  步骤二:SFT 训练
    → 在提取的 Embeddings 上训练(HSDP/FSDP,多节点支持)

9. 竞品对比

对比维度 FireRed-Image-Edit FLUX.2 Dev Qwen-Image-Edit LongCat-Image-Edit
团队 小红书 Black Forest Labs 阿里 LongCat
协议 Apache 2.0 FLUX.1-dev Apache 2.0 Apache 2.0
ImgEdit_O 4.56 4.35 4.51 4.45
GEdit_O EN 7.943 7.413 7.877 7.748
GEdit_O CN 7.887 7.278 7.819 7.731
身份一致性 ✅ SOTA 一般 良好 良好
多元素融合 ✅ Agent 10+ 有限
美妆 LoRA ✅ 数十种
文字风格 ✅ 可比闭源 一般 一般 一般
老照片修复
Agent 工作流
极速推理 30GB/4.5s 40GB+/慢 40GB+/慢 40GB+/慢
ComfyUI
LoRA 训练 ✅ 全开源
骨干无关
自建基准 ✅ REDEdit-Bench

最大差异化

复制代码
1. 开源全面 SOTA:五项基准全部第一,部分超越闭源
2. Agent 多元素融合:10+ 元素自动裁剪拼接,独有
3. 专业美妆 LoRA:数十种风格,从日常到创意,独有
4. 极速推理:30GB VRAM + 4.5s,开源最快
5. Backbone-Agnostic:编辑能力可迁移任意 T2I 基座
6. LoRA 全开源训练:自定义风格+ModelScope在线训练
7. REDEdit-Bench:自建 1673 对中英评测,推动行业评测标准

10. 总结与推荐

推荐指数:⭐⭐⭐⭐⭐

维度 评分 说明
性能 ⭐⭐⭐⭐⭐ 五项基准开源第一,部分超闭源
创新 ⭐⭐⭐⭐⭐ Agent 融合 + 美妆 LoRA + 骨干无关,独有
工程优化 ⭐⭐⭐⭐⭐ 30GB/4.5s,ComfyUI+GGUF,蒸馏三件套
开源 ⭐⭐⭐⭐⭐ Apache 2.0,训练代码+LoRA+基准全开
生态 ⭐⭐⭐⭐⭐ HuggingFace+ModelScope+ComfyUI+ModelScope训练
易用 ⭐⭐⭐⭐ 一行推理,ComfyUI 节点,Demo 可试

一句话推荐

复制代码
如果你需要开源图像编辑的 SOTA 方案,
FireRed-Image-Edit 是目前唯一的选择。

五项基准全面开源第一,部分超越闭源,
Agent 驱动 10+ 元素自由融合,美妆 LoRA 数十种风格,
30GB 显存 4.5s 出图,ComfyUI 原生节点,
Apache 2.0 协议训练代码全开,
骨干无关架构,编辑能力可迁移任意 T2I 基座。

小红书出品,实战验证。
图像编辑,从此有了开源 SOTA。

📢 项目地址:https://github.com/FireRedTeam/FireRed-Image-Edit

🤗 HuggingFace:FireRed-Image-Edit-1.1

🖥️ 在线体验:HuggingFace Demo

📄 技术报告:arXiv 2602.13344


原文链接:https://github.com/FireRedTeam/FireRed-Image-Edit

标签:#FireRed #小红书 #图像编辑 #开源SOTA #Apache2.0 #Agent融合 #美妆LoRA #ComfyUI #REDEdit-Bench #身份一致性 #多元素融合 #30GB显存 #图像修复

分类:原创文章