t4 - t4技术,学习,经验文章

Garfield2005

4 个月前

绕过 FlashAttention-2 限制：在 Turing 架构上使用 PyTorch 实现 FlashAttentionFlashAttention【github】系列，由斯坦福大学 AI 实验室的 Dao 等人提出，通过巧妙的 I/O 感知算法（I/O-aware algorithm）和自定义的 CUDA 内核（CUDA kernel）显著提升了 Transformer 模型中注意力机制的训练和推理速度，尤其是在长序列处理方面。