transformer 优化笔记持续更新

[方案2：安装 xformers（推荐）](#方案2：安装 xformers（推荐）)

[🚀 核心作用：更高效地计算注意力](#🚀 核心作用：更高效地计算注意力)

[💡 为什么需要 xfusers？](#💡 为什么需要 xfusers？)

复制代码

pip install xformers

然后代码里：

python 复制代码

torch.backends.cuda.enable_mem_efficient_sdp(True)

xformers 是一个由 Meta AI (Facebook Research) 开发的，专门用于优化和加速 Transformer 模型的高性能工具库。你可以把它理解为一套为 Transformer 模型设计的"性能改装件"。

它最核心的价值体现在两点：显著提升运行速度 和大幅降低显存占用。

Transformer 模型中最消耗计算资源的环节就是"多头注意力"（Multi-Head Attention）机制。xformers 通过提供更优的计算方式，实现了"又快又省"。

核心优势	具体表现	实际价值
⚡ 更快的速度	使用了比如FlashAttention、内存高效注意力等优化的计算方式	能让你更快地训练模型或更快地生成图片/文本，有时能带来数倍的加速
💾 更省的显存	采用融合算子（Fused Ops）、稀疏注意力等策略，大大降低计算过程中的显存开销	可以让你在有限的GPU显存下，运行更大的模型，或者生成更高分辨率的图像（如在Stable Diffusion中）

xfusers 是一个专门用于大规模加速 Diffusion Transformer（DiT）模型推理 的高性能库。它和之前讨论的 xformers 算是"师出同门"，但专注的方向很不一样：

简单来说，xformers 像给一辆车换上了更高效的发动机，而 xfusers 则是让你可以把好几辆车的动力并在一起，去拖动一个超级重的货柜。

像 Flux、Stable Diffusion 3 这类最新的 DiT 模型，在处理高分辨率图像或长视频时，计算量会爆炸式增长，单张显卡可能"爆显存"或者速度极慢。

xfusers 的目标就是解决这个问题，它通过多种并行计算策略，把模型的计算任务拆分到多张GPU上同时进行。

transformer 优化笔记 持续更新