aiinfra - aiinfra技术,学习,经验文章

索木木

22 天前

Flash Attention反向梯度优化显存前面我有文章介绍子Flash Attention 针对长序列的正向优化，而其反向算子（Backward Pass）的优化由于涉及到复杂的梯度重计算和显存权衡，往往比正向过程更具挑战性。