Wavelet Meets Adam: Compressing Gradients forMemory-Efficient Training大型语言模型(LLMs)在多种自然语言处理任务中展现出了卓越的性能。然而,其庞大的参数规模在训练过程中带来了显著的内存挑战,尤其是在使用像Adam这样内存消耗较高的优化器时。现有的内存高效算法通常依赖于奇异值分解投影或权重冻结等技术。尽管这些方法有助于缓解内存限制,但与全秩更新相比,它们通常会产生次优的结果。在本文中,我们探索了超越低秩训练的内存高效方法,提出了一种名为梯度小波变换(GWT)的创新解决方案。该方法通过将小波变换应用于梯度,显著降低了维护优化器状态所需的内存需求。我们证明了GWT能够与高内存