FireRed-Image-Edit:小红书出品开源图像编辑基础模型!五大基准全面SOTA,Agent多元素融合+专业美妆+30GB显存4.5秒出图,碾压闭源!
💡 小红书智能创作基础技术团队出品,Apache 2.0 开源。不是又一个 Flux 换皮------而是一个从 T2I 骨干原生注入编辑能力的图像编辑基础模型。开源 SOTA 身份一致性,Agent 驱动 10+ 元素自由融合,数十种专业美妆风格 LoRA,高保真文字风格参考,老照片修复,ComfyUI 原生节点 + GGUF 轻量格式,蒸馏+量化+静态编译三件套 30GB 显存 4.5s 出图,Backbone-Agnostic 架构可迁移任意 T2I 基座,自建 REDEdit-Bench 1673 对中英评测对。

📌 目录
- [1. FireRed-Image-Edit 是什么?](#1. FireRed-Image-Edit 是什么?)
- [2. 核心设计理念](#2. 核心设计理念)
- [3. 五大编辑能力](#3. 五大编辑能力)
- [4. 极致工程优化](#4. 极致工程优化)
- [5. Agent 智能工作流](#5. Agent 智能工作流)
- [6. 基准评测:开源 SOTA + 超越闭源](#6. 基准评测:开源 SOTA + 超越闭源)
- [7. 快速上手](#7. 快速上手)
- [8. LoRA 训练生态](#8. LoRA 训练生态)
- [9. 竞品对比](#9. 竞品对比)
- [10. 总结与推荐](#10. 总结与推荐)
1. FireRed-Image-Edit 是什么?
FireRed-Image-Edit 是小红书智能创作基础技术团队出品的开源图像编辑基础模型。
- 🔗 项目地址:https://github.com/FireRedTeam/FireRed-Image-Edit
- 🤗 HuggingFace:FireRed-Image-Edit-1.1 / 1.0
- 🤖 ModelScope:1.1 / 1.0
- 🖥️ 在线 Demo:HuggingFace Space
- 📄 技术报告:arXiv 2602.13344
- 👤 团队:小红书智能创作基础技术团队(Xiaohongshu Intelligent Creation Core Technology Team)
- 🔄 最新:v1.1(2026-03-03)
- 📊 评测基准:REDEdit-Bench(1673 对中英,15 类)
一句话总结
FireRed-Image-Edit = 小红书出品开源图像编辑基础模型
= Apache 2.0 协议
= 开源 SOTA 身份一致性
= Agent 驱动 10+ 元素自由融合
= 数十种专业美妆风格 LoRA
= 高保真文字风格参考(可比闭源)
= 专业老照片修复
= 30GB VRAM + 4.5s/张(蒸馏+量化+静态编译)
= ComfyUI 原生节点 + GGUF 轻量格式
= Backbone-Agnostic(Pretrain→SFT→RL 全流程注入)
= REDEdit-Bench 自建评测(1673 对中英 15 类)
= ImgEdit / GEdit / REDEdit 三大基准开源第一
= 部分维度超越闭源(Nano-Banana / Seedream)
2. 核心设计理念
🆔 身份一致性 SOTA → 角色跨复杂编辑保持可识别
🧩 多元素融合 → Agent 自动裁剪拼接,10+ 元素自由组合
💄 专业美妆 → 数十种风格,从日常到创意全覆盖
📝 文字风格 → 高保真排版,可比闭源方案
🖼️ 照片修复 → 老照片高质量修复+细节恢复
⚡ 极速推理 → 30GB VRAM,4.5s/张
🏗️ 骨干无关 → 编辑能力可迁移任意 T2I 基座
3. 五大编辑能力
🆔 身份一致性(Identity Consistency)
✅ 开源 SOTA 角色身份保持
✅ 复杂编辑下人物依然可识别
✅ 人像一致性 v1.1 进一步优化
🧩 多元素融合(Multi-Element Fusion)
✅ 10+ 元素自由组合
✅ Agent 自动 ROI 检测 + 裁剪拼接
✅ 无需挣扎于短提示词
✅ v1.1 多元素融合进一步优化
示例:橄榄球场 + 黑色夹克 + 迷彩裤 + AJ1 + 旅行包 + 滑板 + 斗牛犬 + 奖杯 + 耳机
→ 一句话描述,Agent 自动处理
💄 专业美妆(Portrait Makeup)
✅ 数十种风格 LoRA
✅ 专业美颜修图
✅ 黄/橄榄肤色提亮
✅ 万圣节女巫妆 + 创意妆容
✅ v1.1 美妆效果进一步优化
示例1:欧美 Y2K 妆(冷白皮哑光粉底 + 亮片银灰眼影 + 黑色上扬眼线 + 镜面玻璃唇釉)
示例2:缎光底妆(缎光粉底 + 深棕色眼影 + 红色豆沙口红 + 银色高光)
📝 文字风格参考(Text Style Reference)
✅ 高保真排版
✅ 风格化文字可比闭源方案
✅ v1.1 风格化文字参考进一步优化
✅ 专用 LoRA:FireRed-Image-Edit-Covercraft
🖼️ 专业照片修复(Photo Restoration)
✅ 高质量老照片修复
✅ 优秀细节恢复
✅ 增强处理
4. 极致工程优化
⚡ 极速推理
加速三件套:
1. 蒸馏(Distilled Lora)→ 少步生成
2. 量化(Quantization)→ 显存降低
3. 静态编译(Static Compilation)→ 推理加速
结果:
✅ 30GB VRAM
✅ ~4.5s/张
✅ 一行命令启用:python inference.py --optimized True
🔌 通用部署
✅ ComfyUI 原生节点支持
✅ GGUF 轻量格式兼容
✅ HuggingFace Diffusers
✅ 无缝生产集成
🏋️ 高效训练
✅ 离线特征预提取
→ VLM 推理与训练完全解耦
→ 消除生成开销,最大化收敛速度
✅ HSDP / FSDP 分布式训练
✅ Disaggregated Training
✅ Multi-Condition Aware Bucket Sampler
🏗️ Backbone-Agnostic 架构
编辑能力注入方式:
Pretrain → SFT → RL 全流程
✅ 可迁移到任意 T2I 基座模型
✅ 不绑定特定骨干网络
✅ 未来可跟随更强大的 T2I 模型升级
5. Agent 智能工作流
原生支持 1-3 张图,超过 3 张图时 Agent 自动介入:
步骤一:ROI Detection(感兴趣区域检测)
→ 所有图 + 用户指令 → Gemini Function-Calling
→ 返回每张图最相关区域的边界框
步骤二:Crop & Stitch(裁剪拼接)
→ 每张图裁剪到 ROI
→ 分区拼接为 2-3 张合成图(≈1024×1024)
→ 最小化空白 + 最大化内容分辨率
步骤三:Recaption(指令重写)
→ 重写用户指令,使图片引用指向新的合成图
→ 扩展提示词至 ~512 字/字符
→ 保留用户原始语言
Recaption LLM Provider
| Provider | 说明 |
|---|---|
| Gemini(默认) | 多模态必须,ROI 检测始终用 Gemini |
| MiniMax | MiniMax-M2.7 / M2.7-highspeed |
| OpenAI Compatible | 任何兼容 API |
💡 LLM API 非必需。不设置时 Agent 仍会执行 ROI 检测和图片拼接,仅跳过指令重写步骤。
6. 基准评测:开源 SOTA + 超越闭源
四大基准成绩
| 模型 | ImgEdit_O ↑ | GEdit_O ↑ (EN) | GEdit_O ↑ (CN) | REDEdit ↑ (EN) | REDEdit ↑ (CN) |
|---|---|---|---|---|---|
| 🔹 闭源模型 | |||||
| Nano-Banana | 4.29 | 7.291 | 7.399 | 4.15 | 4.13 |
| Seedream 4.0 | 4.30 | 7.701 | 7.692 | 4.18 | 4.15 |
| Seedream 4.5 | 4.32 | 7.820 | 7.800 | 4.20 | 4.18 |
| Nano-Banana-Pro | 4.37 | 7.738 | 7.799 | 4.42 | 4.48 |
| 🔹 开源模型 | |||||
| Step1X-Edit-v1.2 | 3.95 | 7.480 | 7.467 | --- | --- |
| Qwen-Image-Edit-2509 | 4.31 | 7.480 | 7.467 | 3.99 | 4.00 |
| FLUX.2 Dev | 4.35 | 7.413 | 7.278 | 4.07 | 4.05 |
| LongCat-Image-Edit | 4.45 | 7.748 | 7.731 | 4.12 | 4.12 |
| Qwen-Image-Edit-2511 | 4.51 | 7.877 | 7.819 | 4.23 | 4.18 |
| 🔥 FireRed-Image-Edit | 4.56 | 7.943 | 7.887 | 4.26 | 4.33 |
关键发现
🏆 ImgEdit_O:4.56 --- 开源第一,超越所有闭源模型
🏆 GEdit_O (EN):7.943 --- 开源第一,超越 Seedream 4.5
🏆 GEdit_O (CN):7.887 --- 开源第一
🏆 REDEdit (EN):4.26 --- 开源第一
🏆 REDEdit (CN):4.33 --- 开源第一,超越 Nano-Banana-Pro 以外所有闭源
→ 五项指标全部开源第一
→ 部分维度超越闭源(ImgEdit_O 超越 Nano-Banana-Pro 4.37→4.56)
→ 人类评估进一步证实:提示词跟随 + 视觉一致性领先
7. 快速上手
安装
bash
pip install -r requirements.txt
基础推理
bash
python inference.py \
--input_image ./examples/edit_example.png \
--prompt "在书本封面Python的下方,添加一行英文文字2nd Edition" \
--output_image output_edit.png \
--seed 43
极速推理(30GB VRAM + 4.5s/张)
bash
python inference.py --optimized True
Agent 多图编辑
bash
# 设置 Recaption LLM(可选)
export GEMINI_API_KEY="your-key" # Gemini(默认)
# 或
export RECAPTION_PROVIDER="minimax"
export MINIMAX_API_KEY="your-key" # MiniMax
# 或
export RECAPTION_PROVIDER="openai_compatible"
export OPENAI_COMPATIBLE_API_KEY="your-key"
export OPENAI_COMPATIBLE_BASE_URL="https://your-api.example.com/v1"
export OPENAI_COMPATIBLE_MODEL="your-model"
ComfyUI
✅ 原生 ComfyUI 节点支持
→ 下载 FireRed-Image-Edit-1.0-ComfyUI 工作流
→ https://huggingface.co/FireRedTeam/FireRed-Image-Edit-1.0-ComfyUI
8. LoRA 训练生态
✅ 完整训练代码开源
✅ 自定义风格创建
✅ 优化采样器最大化 GPU 效率
✅ ModelScope 支持 LoRA 在线训练
✅ LoRA Zoo:
- FireRed-Image-Edit-Makeup.safetensors(美妆)
- FireRed-Image-Edit-Covercraft.safetensors(文字风格)
训练流程:
步骤一:离线提取 VLM Embeddings
→ 对图片-文本 JSONL 运行离线提取
步骤二:SFT 训练
→ 在提取的 Embeddings 上训练(HSDP/FSDP,多节点支持)
9. 竞品对比
| 对比维度 | FireRed-Image-Edit | FLUX.2 Dev | Qwen-Image-Edit | LongCat-Image-Edit |
|---|---|---|---|---|
| 团队 | 小红书 | Black Forest Labs | 阿里 | LongCat |
| 协议 | Apache 2.0 | FLUX.1-dev | Apache 2.0 | Apache 2.0 |
| ImgEdit_O | 4.56 | 4.35 | 4.51 | 4.45 |
| GEdit_O EN | 7.943 | 7.413 | 7.877 | 7.748 |
| GEdit_O CN | 7.887 | 7.278 | 7.819 | 7.731 |
| 身份一致性 | ✅ SOTA | 一般 | 良好 | 良好 |
| 多元素融合 | ✅ Agent 10+ | ❌ | ❌ | 有限 |
| 美妆 LoRA | ✅ 数十种 | ❌ | ❌ | ❌ |
| 文字风格 | ✅ 可比闭源 | 一般 | 一般 | 一般 |
| 老照片修复 | ✅ | ❌ | ❌ | ❌ |
| Agent 工作流 | ✅ | ❌ | ❌ | ❌ |
| 极速推理 | 30GB/4.5s | 40GB+/慢 | 40GB+/慢 | 40GB+/慢 |
| ComfyUI | ✅ | ✅ | ❌ | ❌ |
| LoRA 训练 | ✅ 全开源 | ❌ | ❌ | ❌ |
| 骨干无关 | ✅ | ❌ | ❌ | ❌ |
| 自建基准 | ✅ REDEdit-Bench | ❌ | ❌ | ❌ |
最大差异化
1. 开源全面 SOTA:五项基准全部第一,部分超越闭源
2. Agent 多元素融合:10+ 元素自动裁剪拼接,独有
3. 专业美妆 LoRA:数十种风格,从日常到创意,独有
4. 极速推理:30GB VRAM + 4.5s,开源最快
5. Backbone-Agnostic:编辑能力可迁移任意 T2I 基座
6. LoRA 全开源训练:自定义风格+ModelScope在线训练
7. REDEdit-Bench:自建 1673 对中英评测,推动行业评测标准
10. 总结与推荐
推荐指数:⭐⭐⭐⭐⭐
| 维度 | 评分 | 说明 |
|---|---|---|
| 性能 | ⭐⭐⭐⭐⭐ | 五项基准开源第一,部分超闭源 |
| 创新 | ⭐⭐⭐⭐⭐ | Agent 融合 + 美妆 LoRA + 骨干无关,独有 |
| 工程优化 | ⭐⭐⭐⭐⭐ | 30GB/4.5s,ComfyUI+GGUF,蒸馏三件套 |
| 开源 | ⭐⭐⭐⭐⭐ | Apache 2.0,训练代码+LoRA+基准全开 |
| 生态 | ⭐⭐⭐⭐⭐ | HuggingFace+ModelScope+ComfyUI+ModelScope训练 |
| 易用 | ⭐⭐⭐⭐ | 一行推理,ComfyUI 节点,Demo 可试 |
一句话推荐
如果你需要开源图像编辑的 SOTA 方案,
FireRed-Image-Edit 是目前唯一的选择。
五项基准全面开源第一,部分超越闭源,
Agent 驱动 10+ 元素自由融合,美妆 LoRA 数十种风格,
30GB 显存 4.5s 出图,ComfyUI 原生节点,
Apache 2.0 协议训练代码全开,
骨干无关架构,编辑能力可迁移任意 T2I 基座。
小红书出品,实战验证。
图像编辑,从此有了开源 SOTA。
📢 项目地址:https://github.com/FireRedTeam/FireRed-Image-Edit
🤗 HuggingFace:FireRed-Image-Edit-1.1
🖥️ 在线体验:HuggingFace Demo
📄 技术报告:arXiv 2602.13344
原文链接:https://github.com/FireRedTeam/FireRed-Image-Edit
标签:#FireRed #小红书 #图像编辑 #开源SOTA #Apache2.0 #Agent融合 #美妆LoRA #ComfyUI #REDEdit-Bench #身份一致性 #多元素融合 #30GB显存 #图像修复
分类:原创文章