黑森林研究所提出KV缓存方式让生图模型能更好地多参考编辑


FLUX.2 [klein] 9B-KV 是 FLUX.2 klein 9B 的优化版本,具备KV缓存加速多参考图编辑功能。该变体在首次去噪步骤中缓存参考图的键值对,消除后续步骤的冗余计算,显著加速多图编辑流程。

了解更多 FLUX.2 klein 信息,请阅读我们的博客文章

核心特性

  1. KV缓存优化:参考图键值对仅计算一次并缓存,多参考图编辑任务可减少计算量,推理速度提升高达2.5倍
  2. 完整保留 FLUX.2 klein 9B 所有能力:亚秒级生成、文生图、多参考图编辑的统一模型
  3. 特别适合需要重复使用相同参考图的交互式应用和实时编辑场景
  4. 90亿参数流模型,搭配80亿参数Qwen3文本编码器,通过步数蒸馏实现4步推理
  5. 仅供非商业用途使用

KV缓存原理

标准图像编辑流程会在每个去噪步骤重复处理参考图token。采用KV缓存后:

  • 步骤0:完整前向传播处理参考图token,提取键值对存入缓存
  • 步骤1-3:复用缓存键值对,跳过冗余的参考图token计算

该技术特别适用于:

  • 多参考图编辑场景
  • 使用相同参考图生成变体
  • 开发交互式编辑应用

使用方式

我们在GitHub仓库提供了参考实现。

API接口

可通过 BFL API 使用 FLUX.2 klein 9B-KV,访问 bfl.ai

搭配Diffusers 🧨使用

如需通过 🧨 Diffusers python库使用 FLUX.2 klein 9B-KV,请先安装或升级diffusers:

shell 复制代码
pip install git+https://github.com/huggingface/diffusers.git

然后你可以使用Flux2KleinKVPipeline来运行模型:

python 复制代码
import torch
from diffusers import Flux2KleinKVPipeline

device = "cuda"
dtype = torch.bfloat16
model_path = "black-forest-labs/FLUX.2-klein-9b-kv"

pipe = Flux2KleinKVPipeline.from_pretrained(model_path, torch_dtype=dtype)
pipe.to(device)

# Text-to-image (no reference image)
print("Generating text-to-image...")
image = pipe(
    prompt="A cat holding a sign that says hello world",
    height=1024,
    width=1024,
    num_inference_steps=4,
    generator=torch.Generator(device=device).manual_seed(0),
).images[0]
image.save("t2i_output.png")
print("Saved t2i_output.png")

# Image-to-image with KV cache (using the generated image as reference)
print("Generating image-to-image with KV cache...")
image_kv = pipe(
    prompt="A cat dressed like a wizard",
    image=image,
    height=1024,
    width=1024,
    num_inference_steps=4,
    generator=torch.Generator(device=device).manual_seed(0),
).images[0]
image_kv.save("kv_output.png")
print("Saved kv_output.png")

局限性

  • 本模型不具备亦不意图提供事实性信息
  • 生成的文本内容可能存在不准确或失实表述
  • 作为统计模型可能反映或放大训练数据中的偏见
  • 存在无法按提示要求生成内容的情况
  • 输出结果对提示风格极为敏感

禁止用途

依据使用政策规定,禁止将本模型及其衍生品用于违法、欺诈、诽谤、滥用等违反许可协议的用途。

硬件要求

FLUX.2 klein 9B-KV模型需约29GB显存,需配备NVIDIA RTX 5090及以上显卡。


负责任AI开发

黑森林实验室致力于负责任的模型开发与部署。在发布FLUX.2 klein 9B-KV前,我们已评估并缓解了包括儿童性虐待材料(CSAM)和非自愿亲密影像(NCII)在内的多项风险。完整评估流程、内容溯源功能及政策详见博文:强大、开放与安全:防范AI滥用

安全事项举报请联系:safety@blackforestlabs.ai


许可协议

本模型采用FLUX非商业许可

商标与知识产权

本项目可能包含相关项目的商标或标识。修改版本中使用黑森林实验室及FLUX商标时不得暗示官方授权。第三方商标及知识产权的使用受相关方政策约束。

相关推荐
阿拉斯攀登21 分钟前
Agent 核心架构:思考-行动-观察循环(ReAct)
人工智能·ai·agent·react
HyperAI超神经25 分钟前
活动预告|智源/TileRT/腾讯/华为/智元创新同台,共探 AI 编译的多层级协同优化
人工智能·ai 编译器·腾讯·具身智能·矩阵乘法·算子优化·华为昇腾
在水一缸30 分钟前
GLM 5.2 发布:当长上下文与智能体走向深度融合
人工智能·大模型·智能体·智谱ai·长上下文·glm-5.2
小妖同学学AI35 分钟前
AI编程 AI Ping+Cline搭建自己的编程助手!
人工智能·ai编程
菩提小狗40 分钟前
每日极客日报 · 2026年07月04日
ai·开源·极客日报·it热点·技术资讯
星马梦缘41 分钟前
机器学习与模式识别 第十四章 神经网络中的反向传播 考点压缩
人工智能·机器学习·微分·反向传播
love530love44 分钟前
WorkBuddy + 本地 ComfyUI MCP:免订阅费的自建方案
人工智能·windows·mcp·comfy cloud
无心水1 小时前
【全域智能营销实战】2、Spring AI 模块化架构深度解读:从 1.0 到 2.0 的演进与最佳实践
人工智能·spring·架构·harness·顶尖架构师·全域智能营销·harmess