技术栈
flash attention
我的龙呢
2 个月前
人工智能
·
flash attention
Flash Attention
Flash Attention 是一种针对 Transformer 模型 优化的高效注意力计算方法。与传统注意力机制相比,它通过 分块计算、显存优化 和 数值稳定性改进,实现了在 长序列任务 中的显著加速,同时大幅降低了显存占用。