flashattention

叶庭云19 天前
大语言模型·flashattention·量化技术·w8a8 量化·w4a8 量化·稀疏量化·kv cache 量化
一文了解 W8A8、W4A8、稀疏量化、FlashAttention-3、KV Cache 量化W8A8(Weight 8-bit / Activation 8-bit)量化的本质是:用 8-bit 整数近似表示 FP16/FP32 的模型权重与中间激活值,并在整数域完成 GEMM(GEneral Matrix Multiplication),最终在输出端做尺度还原。 量化计算只是改变了数值 “表示形式”,没有改变模型定义的数值空间;尺度还原的作用,是在精度边界处将整数近似重新嵌回模型原始的浮点语义空间。
enjoy编程22 天前
注意力机制·flashattention·kv cache·pd分离·pagedattention·epd分离·radixattention
Spring AI 大模型工程核心:效率的极限博弈大模型工程实践,本质是算力、显存与通信的极限优化。其核心在于四大支柱:总结:现代大模型工程已进化为“算子+并行+调度+缓存”的综合体系,掌握这些核心技术,是构建高性能、低成本服务的关键。
爱听歌的周童鞋3 个月前
llm·gpu·flashattention·cs336·tiling
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 5: GPUs学习斯坦福的 CS336 课程,本篇文章记录课程第五讲:GPU,记录下个人学习笔记,仅供自己参考😄website:https://stanford-cs336.github.io/spring2025
丁学文武4 个月前
人工智能·深度学习·大模型应用·flashattention
FlashAttention(V2)深度解析:从原理到工程实现随着大模型参数规模的不断扩大和序列长度的增长,注意力机制的计算复杂度成为训练和推理的主要瓶颈。Flash Attention通过巧妙的内存管理和计算重排,在不改变数学语义的前提下大幅提升了注意力计算的效率。在Flash Attention V1的基础上,V2版本通过调整循环结构和优化并行策略,进一步提升了性能。
Garfield20055 个月前
pytorch·flashattention·turing·图灵架构·t4·2080ti
绕过 FlashAttention-2 限制:在 Turing 架构上使用 PyTorch 实现 FlashAttentionFlashAttention【github】 系列,由斯坦福大学 AI 实验室的 Dao 等人提出,通过巧妙的 I/O 感知算法(I/O-aware algorithm)和自定义的 CUDA 内核(CUDA kernel)显著提升了 Transformer 模型中注意力机制的训练和推理速度,尤其是在长序列处理方面。
Nicolas8936 个月前
gpt·ollama部署·flashattention·部署问题·vllm部署·gpt-oss·gpt-oss-120b
【大模型实战篇】部署GPT-OSS-120B踩得坑(vllm / ollama等推理框架)之前在《gpt-oss系列模型初探》介绍了GPT-OSS的相关内容,接下来个人尝试做了部署和测试,也遇到一些坑。
仙人掌_lz9 个月前
人工智能·python·深度学习·算法·ai·flashattention
从零开始理解FlashAttention:算法细节图解“学习不是装满一桶水,而是点燃一把火。” —— 叶芝我的博客主页: https://lizheng.blog.csdn.net
Fulin_Gao1 年前
llama·原理·代码·rope·rmsnorm·swiglu·flashattention
【多模态大模型】LLaMA in arXiv 2023论文: LLaMA: Open and Efficient Foundation Language Models 作者: Meta AI 代码: LLaMA 特点: 该方法在Transformer的基础上增加了Pre-normalization (RMSNorm)、SwiGLU activation function (SwiGLU)、Rotary Embeddings (RoPE)、FlashAttention。
我是有底线的