flash attention

这是谁的博客?17 天前
ai·rwkv·flash attention·高效注意力·performer·linformer·retnet
高效注意力机制深度解析:从 Linear Attention 到 RWKV 的线性复杂度序列建模Transformer 的自注意力机制计算复杂度为 O ( n 2 ) O(n^2) O(n2),随序列长度二次增长,成为长上下文建模的核心瓶颈。本文系统梳理了高效注意力机制的技术全景,从稀疏注意力、线性注意力到状态空间模型,深入分析 Performer、Linformer、RWKV、RetNet 等代表性方法的数学原理和架构设计。文章涵盖核技巧、低秩近似、递推状态更新等核心技术,并提供完整的性能对比和选型指南。
love530love3 个月前
人工智能·windows·microsoft·llama.cpp·bitnet·flash attention·bitlinear_cpp
【独家资源】Windows 本地部署微软 BitNet b1.58: Flash Attention + CUDA GPU 加速 (sm_86) + AVX2 优化 + 1.58bit 量化microsoft/BitNet:1位大型语言模型的官方推理框架突破 Windows 编译禁区:BitNet 1-bit LLM 推理框架 GPU 加速部署编译 BitNet CUDA 算子全记录
love530love5 个月前
人工智能·windows·笔记·python·flash_attn·flash attention·z-image
Flash Attention 2.8.3 在 Windows + RTX 3090 上成功编译与运行复盘笔记(2026年1月版)作者:AITechLab日期:2026年1月7日环境:Windows 11 + RTX 3090 + PyTorch 2.9.1+cu130 + Python 3.10.18
爱听歌的周童鞋1 年前
attention·self-attention·flash attention
Flash Attention原理讲解看了几个视频和几篇文章学习了下 Flash Attention,记录下个人学习笔记,仅供自己参考😄refer1:Flash Attention 为什么那么快?原理讲解
我的龙呢2 年前
人工智能·flash attention
Flash AttentionFlash Attention 是一种针对 Transformer 模型 优化的高效注意力计算方法。与传统注意力机制相比,它通过 分块计算、显存优化 和 数值稳定性改进,实现了在 长序列任务 中的显著加速,同时大幅降低了显存占用。
我是有底线的