FireRed-Image-Edit：小红书出品开源图像编辑基础模型！五大基准全面SOTA

FireRed-Image-Edit：小红书出品开源图像编辑基础模型！五大基准全面SOTA，Agent多元素融合+专业美妆+30GB显存4.5秒出图，碾压闭源！

💡 小红书智能创作基础技术团队出品，Apache 2.0 开源。不是又一个 Flux 换皮------而是一个从 T2I 骨干原生注入编辑能力的图像编辑基础模型。开源 SOTA 身份一致性，Agent 驱动 10+ 元素自由融合，数十种专业美妆风格 LoRA，高保真文字风格参考，老照片修复，ComfyUI 原生节点 + GGUF 轻量格式，蒸馏+量化+静态编译三件套 30GB 显存 4.5s 出图，Backbone-Agnostic 架构可迁移任意 T2I 基座，自建 REDEdit-Bench 1673 对中英评测对。

📌 目录

[1. FireRed-Image-Edit 是什么？](#1. FireRed-Image-Edit 是什么？)
[2. 核心设计理念](#2. 核心设计理念)
[3. 五大编辑能力](#3. 五大编辑能力)
[4. 极致工程优化](#4. 极致工程优化)
[5. Agent 智能工作流](#5. Agent 智能工作流)
[6. 基准评测：开源 SOTA + 超越闭源](#6. 基准评测：开源 SOTA + 超越闭源)
[7. 快速上手](#7. 快速上手)
[8. LoRA 训练生态](#8. LoRA 训练生态)
[9. 竞品对比](#9. 竞品对比)
[10. 总结与推荐](#10. 总结与推荐)

1. FireRed-Image-Edit 是什么？

FireRed-Image-Edit 是小红书智能创作基础技术团队出品的开源图像编辑基础模型。

🔗 项目地址：https://github.com/FireRedTeam/FireRed-Image-Edit
🤗 HuggingFace：FireRed-Image-Edit-1.1 / 1.0
🤖 ModelScope：1.1 / 1.0
🖥️ 在线 Demo：HuggingFace Space
📄 技术报告：arXiv 2602.13344
👤 团队：小红书智能创作基础技术团队（Xiaohongshu Intelligent Creation Core Technology Team）
🔄 最新：v1.1（2026-03-03）
📊 评测基准：REDEdit-Bench（1673 对中英，15 类）

一句话总结

复制代码

FireRed-Image-Edit = 小红书出品开源图像编辑基础模型
  = Apache 2.0 协议
  = 开源 SOTA 身份一致性
  = Agent 驱动 10+ 元素自由融合
  = 数十种专业美妆风格 LoRA
  = 高保真文字风格参考（可比闭源）
  = 专业老照片修复
  = 30GB VRAM + 4.5s/张（蒸馏+量化+静态编译）
  = ComfyUI 原生节点 + GGUF 轻量格式
  = Backbone-Agnostic（Pretrain→SFT→RL 全流程注入）
  = REDEdit-Bench 自建评测（1673 对中英 15 类）
  = ImgEdit / GEdit / REDEdit 三大基准开源第一
  = 部分维度超越闭源（Nano-Banana / Seedream）

2. 核心设计理念

复制代码

🆔 身份一致性 SOTA → 角色跨复杂编辑保持可识别
🧩 多元素融合 → Agent 自动裁剪拼接，10+ 元素自由组合
💄 专业美妆 → 数十种风格，从日常到创意全覆盖
📝 文字风格 → 高保真排版，可比闭源方案
🖼️ 照片修复 → 老照片高质量修复+细节恢复
⚡ 极速推理 → 30GB VRAM，4.5s/张
🏗️ 骨干无关 → 编辑能力可迁移任意 T2I 基座

3. 五大编辑能力

🆔 身份一致性（Identity Consistency）

复制代码

✅ 开源 SOTA 角色身份保持
✅ 复杂编辑下人物依然可识别
✅ 人像一致性 v1.1 进一步优化

🧩 多元素融合（Multi-Element Fusion）

复制代码

✅ 10+ 元素自由组合
✅ Agent 自动 ROI 检测 + 裁剪拼接
✅ 无需挣扎于短提示词
✅ v1.1 多元素融合进一步优化

示例：橄榄球场 + 黑色夹克 + 迷彩裤 + AJ1 + 旅行包 + 滑板 + 斗牛犬 + 奖杯 + 耳机
→ 一句话描述，Agent 自动处理

💄 专业美妆（Portrait Makeup）

复制代码

✅ 数十种风格 LoRA
✅ 专业美颜修图
✅ 黄/橄榄肤色提亮
✅ 万圣节女巫妆 + 创意妆容
✅ v1.1 美妆效果进一步优化

示例1：欧美 Y2K 妆（冷白皮哑光粉底 + 亮片银灰眼影 + 黑色上扬眼线 + 镜面玻璃唇釉）
示例2：缎光底妆（缎光粉底 + 深棕色眼影 + 红色豆沙口红 + 银色高光）

📝 文字风格参考（Text Style Reference）

复制代码

✅ 高保真排版
✅ 风格化文字可比闭源方案
✅ v1.1 风格化文字参考进一步优化
✅ 专用 LoRA：FireRed-Image-Edit-Covercraft

🖼️ 专业照片修复（Photo Restoration）

复制代码

✅ 高质量老照片修复
✅ 优秀细节恢复
✅ 增强处理

4. 极致工程优化

⚡ 极速推理

复制代码

加速三件套：
  1. 蒸馏（Distilled Lora）→ 少步生成
  2. 量化（Quantization）→ 显存降低
  3. 静态编译（Static Compilation）→ 推理加速

结果：
  ✅ 30GB VRAM
  ✅ ~4.5s/张
  ✅ 一行命令启用：python inference.py --optimized True

🔌 通用部署

复制代码

✅ ComfyUI 原生节点支持
✅ GGUF 轻量格式兼容
✅ HuggingFace Diffusers
✅ 无缝生产集成

🏋️ 高效训练

复制代码

✅ 离线特征预提取
  → VLM 推理与训练完全解耦
  → 消除生成开销，最大化收敛速度
✅ HSDP / FSDP 分布式训练
✅ Disaggregated Training
✅ Multi-Condition Aware Bucket Sampler

🏗️ Backbone-Agnostic 架构

复制代码

编辑能力注入方式：
  Pretrain → SFT → RL 全流程

✅ 可迁移到任意 T2I 基座模型
✅ 不绑定特定骨干网络
✅ 未来可跟随更强大的 T2I 模型升级

5. Agent 智能工作流

原生支持 1-3 张图，超过 3 张图时 Agent 自动介入：

复制代码

步骤一：ROI Detection（感兴趣区域检测）
  → 所有图 + 用户指令 → Gemini Function-Calling
  → 返回每张图最相关区域的边界框

步骤二：Crop & Stitch（裁剪拼接）
  → 每张图裁剪到 ROI
  → 分区拼接为 2-3 张合成图（≈1024×1024）
  → 最小化空白 + 最大化内容分辨率

步骤三：Recaption（指令重写）
  → 重写用户指令，使图片引用指向新的合成图
  → 扩展提示词至 ~512 字/字符
  → 保留用户原始语言

Recaption LLM Provider

Provider	说明
Gemini（默认）	多模态必须，ROI 检测始终用 Gemini
MiniMax	MiniMax-M2.7 / M2.7-highspeed
OpenAI Compatible	任何兼容 API

💡 LLM API 非必需。不设置时 Agent 仍会执行 ROI 检测和图片拼接，仅跳过指令重写步骤。

6. 基准评测：开源 SOTA + 超越闭源

四大基准成绩

模型	ImgEdit_O ↑	GEdit_O ↑ (EN)	GEdit_O ↑ (CN)	REDEdit ↑ (EN)	REDEdit ↑ (CN)
🔹 闭源模型
Nano-Banana	4.29	7.291	7.399	4.15	4.13
Seedream 4.0	4.30	7.701	7.692	4.18	4.15
Seedream 4.5	4.32	7.820	7.800	4.20	4.18
Nano-Banana-Pro	4.37	7.738	7.799	4.42	4.48
🔹 开源模型
Step1X-Edit-v1.2	3.95	7.480	7.467	---	---
Qwen-Image-Edit-2509	4.31	7.480	7.467	3.99	4.00
FLUX.2 $Dev$	4.35	7.413	7.278	4.07	4.05
LongCat-Image-Edit	4.45	7.748	7.731	4.12	4.12
Qwen-Image-Edit-2511	4.51	7.877	7.819	4.23	4.18
🔥 FireRed-Image-Edit	4.56	7.943	7.887	4.26	4.33

关键发现

复制代码

🏆 ImgEdit_O：4.56 --- 开源第一，超越所有闭源模型
🏆 GEdit_O (EN)：7.943 --- 开源第一，超越 Seedream 4.5
🏆 GEdit_O (CN)：7.887 --- 开源第一
🏆 REDEdit (EN)：4.26 --- 开源第一
🏆 REDEdit (CN)：4.33 --- 开源第一，超越 Nano-Banana-Pro 以外所有闭源

→ 五项指标全部开源第一
→ 部分维度超越闭源（ImgEdit_O 超越 Nano-Banana-Pro 4.37→4.56）
→ 人类评估进一步证实：提示词跟随 + 视觉一致性领先

7. 快速上手

安装

bash 复制代码

pip install -r requirements.txt

基础推理

bash 复制代码

python inference.py \
    --input_image ./examples/edit_example.png \
    --prompt "在书本封面Python的下方，添加一行英文文字2nd Edition" \
    --output_image output_edit.png \
    --seed 43

极速推理（30GB VRAM + 4.5s/张）

bash 复制代码

python inference.py --optimized True

Agent 多图编辑

bash 复制代码

# 设置 Recaption LLM（可选）
export GEMINI_API_KEY="your-key"          # Gemini（默认）
# 或
export RECAPTION_PROVIDER="minimax"
export MINIMAX_API_KEY="your-key"         # MiniMax
# 或
export RECAPTION_PROVIDER="openai_compatible"
export OPENAI_COMPATIBLE_API_KEY="your-key"
export OPENAI_COMPATIBLE_BASE_URL="https://your-api.example.com/v1"
export OPENAI_COMPATIBLE_MODEL="your-model"

ComfyUI

复制代码

✅ 原生 ComfyUI 节点支持
→ 下载 FireRed-Image-Edit-1.0-ComfyUI 工作流
→ https://huggingface.co/FireRedTeam/FireRed-Image-Edit-1.0-ComfyUI

8. LoRA 训练生态

复制代码

✅ 完整训练代码开源
✅ 自定义风格创建
✅ 优化采样器最大化 GPU 效率
✅ ModelScope 支持 LoRA 在线训练
✅ LoRA Zoo：
   - FireRed-Image-Edit-Makeup.safetensors（美妆）
   - FireRed-Image-Edit-Covercraft.safetensors（文字风格）

训练流程：
  步骤一：离线提取 VLM Embeddings
    → 对图片-文本 JSONL 运行离线提取
  步骤二：SFT 训练
    → 在提取的 Embeddings 上训练（HSDP/FSDP，多节点支持）

9. 竞品对比

对比维度	FireRed-Image-Edit	FLUX.2 $Dev$	Qwen-Image-Edit	LongCat-Image-Edit
团队	小红书	Black Forest Labs	阿里	LongCat
协议	Apache 2.0	FLUX.1-dev	Apache 2.0	Apache 2.0
ImgEdit_O	4.56	4.35	4.51	4.45
GEdit_O EN	7.943	7.413	7.877	7.748
GEdit_O CN	7.887	7.278	7.819	7.731
身份一致性	✅ SOTA	一般	良好	良好
多元素融合	✅ Agent 10+	❌	❌	有限
美妆 LoRA	✅ 数十种	❌	❌	❌
文字风格	✅ 可比闭源	一般	一般	一般
老照片修复	✅	❌	❌	❌
Agent 工作流	✅	❌	❌	❌
极速推理	30GB/4.5s	40GB+/慢	40GB+/慢	40GB+/慢
ComfyUI	✅	✅	❌	❌
LoRA 训练	✅ 全开源	❌	❌	❌
骨干无关	✅	❌	❌	❌
自建基准	✅ REDEdit-Bench	❌	❌	❌

最大差异化

复制代码

1. 开源全面 SOTA：五项基准全部第一，部分超越闭源
2. Agent 多元素融合：10+ 元素自动裁剪拼接，独有
3. 专业美妆 LoRA：数十种风格，从日常到创意，独有
4. 极速推理：30GB VRAM + 4.5s，开源最快
5. Backbone-Agnostic：编辑能力可迁移任意 T2I 基座
6. LoRA 全开源训练：自定义风格+ModelScope在线训练
7. REDEdit-Bench：自建 1673 对中英评测，推动行业评测标准

10. 总结与推荐

推荐指数：⭐⭐⭐⭐⭐

维度	评分	说明
性能	⭐⭐⭐⭐⭐	五项基准开源第一，部分超闭源
创新	⭐⭐⭐⭐⭐	Agent 融合 + 美妆 LoRA + 骨干无关，独有
工程优化	⭐⭐⭐⭐⭐	30GB/4.5s，ComfyUI+GGUF，蒸馏三件套
开源	⭐⭐⭐⭐⭐	Apache 2.0，训练代码+LoRA+基准全开
生态	⭐⭐⭐⭐⭐	HuggingFace+ModelScope+ComfyUI+ModelScope训练
易用	⭐⭐⭐⭐	一行推理，ComfyUI 节点，Demo 可试

一句话推荐

复制代码

如果你需要开源图像编辑的 SOTA 方案，
FireRed-Image-Edit 是目前唯一的选择。

五项基准全面开源第一，部分超越闭源，
Agent 驱动 10+ 元素自由融合，美妆 LoRA 数十种风格，
30GB 显存 4.5s 出图，ComfyUI 原生节点，
Apache 2.0 协议训练代码全开，
骨干无关架构，编辑能力可迁移任意 T2I 基座。

小红书出品，实战验证。
图像编辑，从此有了开源 SOTA。

📢 项目地址：https://github.com/FireRedTeam/FireRed-Image-Edit

🤗 HuggingFace：FireRed-Image-Edit-1.1

🖥️ 在线体验：HuggingFace Demo

📄 技术报告：arXiv 2602.13344

原文链接：https://github.com/FireRedTeam/FireRed-Image-Edit

标签：#FireRed #小红书 #图像编辑 #开源SOTA #Apache2.0 #Agent融合 #美妆LoRA #ComfyUI #REDEdit-Bench #身份一致性 #多元素融合 #30GB显存 #图像修复

分类：原创文章