flashattention

爱听歌的周童鞋

斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 5: GPUs学习斯坦福的 CS336 课程，本篇文章记录课程第五讲：GPU，记录下个人学习笔记，仅供自己参考😄website：https://stanford-cs336.github.io/spring2025

FlashAttention（V2）深度解析：从原理到工程实现随着大模型参数规模的不断扩大和序列长度的增长，注意力机制的计算复杂度成为训练和推理的主要瓶颈。Flash Attention通过巧妙的内存管理和计算重排，在不改变数学语义的前提下大幅提升了注意力计算的效率。在Flash Attention V1的基础上，V2版本通过调整循环结构和优化并行策略，进一步提升了性能。

绕过 FlashAttention-2 限制：在 Turing 架构上使用 PyTorch 实现 FlashAttentionFlashAttention【github】系列，由斯坦福大学 AI 实验室的 Dao 等人提出，通过巧妙的 I/O 感知算法（I/O-aware algorithm）和自定义的 CUDA 内核（CUDA kernel）显著提升了 Transformer 模型中注意力机制的训练和推理速度，尤其是在长序列处理方面。

【大模型实战篇】部署GPT-OSS-120B踩得坑（vllm / ollama等推理框架）之前在《gpt-oss系列模型初探》介绍了GPT-OSS的相关内容，接下来个人尝试做了部署和测试，也遇到一些坑。

从零开始理解FlashAttention：算法细节图解“学习不是装满一桶水，而是点燃一把火。” —— 叶芝我的博客主页： https://lizheng.blog.csdn.net

【多模态大模型】LLaMA in arXiv 2023论文： LLaMA: Open and Efficient Foundation Language Models 作者： Meta AI 代码： LLaMA 特点：该方法在Transformer的基础上增加了Pre-normalization (RMSNorm)、SwiGLU activation function (SwiGLU)、Rotary Embeddings (RoPE)、FlashAttention。

我是有底线的