技术栈

t4

Garfield2005
21 天前
pytorch·flashattention·turing·图灵架构·t4·2080ti
绕过 FlashAttention-2 限制:在 Turing 架构上使用 PyTorch 实现 FlashAttentionFlashAttention【github】 系列,由斯坦福大学 AI 实验室的 Dao 等人提出,通过巧妙的 I/O 感知算法(I/O-aware algorithm)和自定义的 CUDA 内核(CUDA kernel)显著提升了 Transformer 模型中注意力机制的训练和推理速度,尤其是在长序列处理方面。
我是有底线的