技术栈

flashattention

仙人掌_lz
1 个月前
人工智能·python·深度学习·算法·ai·flashattention
从零开始理解FlashAttention:算法细节图解“学习不是装满一桶水,而是点燃一把火。” —— 叶芝我的博客主页: https://lizheng.blog.csdn.net
Fulin_Gao
10 个月前
llama·原理·代码·rope·rmsnorm·swiglu·flashattention
【多模态大模型】LLaMA in arXiv 2023论文: LLaMA: Open and Efficient Foundation Language Models 作者: Meta AI 代码: LLaMA 特点: 该方法在Transformer的基础上增加了Pre-normalization (RMSNorm)、SwiGLU activation function (SwiGLU)、Rotary Embeddings (RoPE)、FlashAttention。