技术栈

adamw

All The Way North-
13 天前
transformer·优化器·数学原理·adam·权重衰减·adamw·对比分析
AdamW 深度解析:从数学原理到 PyTorch 实现,对比分析AdamW与Adam正式 AdamW 之前,推荐先看看我写的这几篇文章:AdamW 的全称是 Adam with Decoupled Weight Decay。
GoldenSpider.AI
6 个月前
人工智能·svd·muon·adamw
Muon 优化器:通过正交化动量矩阵革命性地加速 AI 大模型训练在机器学习模型训练的漫长演进中,优化器始终是决定效率和性能的核心工具。长期以来,Adam 优化器及其变体 AdamW 一直占据着主流地位。然而,随着大型语言模型(LLM)的规模不断扩大,Adam 固有的内存消耗和效率瓶颈日益凸显。
我是有底线的