技术栈
flashattention
丁学文武
19 天前
人工智能
·
深度学习
·
大模型应用
·
flashattention
FlashAttention(V2)深度解析:从原理到工程实现
随着大模型参数规模的不断扩大和序列长度的增长,注意力机制的计算复杂度成为训练和推理的主要瓶颈。Flash Attention通过巧妙的内存管理和计算重排,在不改变数学语义的前提下大幅提升了注意力计算的效率。在Flash Attention V1的基础上,V2版本通过调整循环结构和优化并行策略,进一步提升了性能。
Garfield2005
21 天前
pytorch
·
flashattention
·
turing
·
图灵架构
·
t4
·
2080ti
绕过 FlashAttention-2 限制:在 Turing 架构上使用 PyTorch 实现 FlashAttention
FlashAttention【github】 系列,由斯坦福大学 AI 实验室的 Dao 等人提出,通过巧妙的 I/O 感知算法(I/O-aware algorithm)和自定义的 CUDA 内核(CUDA kernel)显著提升了 Transformer 模型中注意力机制的训练和推理速度,尤其是在长序列处理方面。
Nicolas893
2 个月前
gpt
·
ollama部署
·
flashattention
·
部署问题
·
vllm部署
·
gpt-oss
·
gpt-oss-120b
【大模型实战篇】部署GPT-OSS-120B踩得坑(vllm / ollama等推理框架)
之前在《gpt-oss系列模型初探》介绍了GPT-OSS的相关内容,接下来个人尝试做了部署和测试,也遇到一些坑。
仙人掌_lz
5 个月前
人工智能
·
python
·
深度学习
·
算法
·
ai
·
flashattention
从零开始理解FlashAttention:算法细节图解
“学习不是装满一桶水,而是点燃一把火。” —— 叶芝我的博客主页: https://lizheng.blog.csdn.net
Fulin_Gao
1 年前
llama
·
原理
·
代码
·
rope
·
rmsnorm
·
swiglu
·
flashattention
【多模态大模型】LLaMA in arXiv 2023
论文: LLaMA: Open and Efficient Foundation Language Models 作者: Meta AI 代码: LLaMA 特点: 该方法在Transformer的基础上增加了Pre-normalization (RMSNorm)、SwiGLU activation function (SwiGLU)、Rotary Embeddings (RoPE)、FlashAttention。
我是有底线的