技术栈
aiinfra
索木木
3 小时前
人工智能
·
机器学习
·
大模型
·
attention
·
训练
·
显存优化
·
aiinfra
Flash Attention反向梯度优化显存
前面我有文章介绍子Flash Attention 针对长序列的正向优化,而其反向算子(Backward Pass)的优化由于涉及到复杂的梯度重计算和显存权衡,往往比正向过程更具挑战性。
我是有底线的