技术栈

aiinfra

索木木
3 小时前
人工智能·机器学习·大模型·attention·训练·显存优化·aiinfra
Flash Attention反向梯度优化显存前面我有文章介绍子Flash Attention 针对长序列的正向优化,而其反向算子(Backward Pass)的优化由于涉及到复杂的梯度重计算和显存权衡,往往比正向过程更具挑战性。
我是有底线的