国防科大：双目标优化防止LLM灾难性遗忘

📖标题：How to Complete Domain Tuning while Keeping General Ability in LLM: Adaptive Layer-wise and Element-wise Regularization

🌐来源：arXiv, 2501.13669

🌟摘要

🔸大型语言模型（LLM）展现出强大的通用语言能力。然而，在特定领域的任务上对这些模型进行微调通常会导致灾难性的遗忘，即模型覆盖或丢失在预训练期间获得的基本知识。这种现象极大地限制了LLM的广泛适用性。

🔸为了应对这一挑战，我们提出了一种新的方法来计算模型参数的元素重要性，这些参数对于在微调过程中保留一般知识至关重要。我们的方法采用了一种双目标优化策略：（1）正则化损失，以保留对一般知识至关重要的参数；（2）交叉熵损失，以适应特定领域的任务。此外，我们引入逐层系数来解释不同层的不同贡献，动态平衡双射优化。

🔸使用GPTJ和LLaMA-3对科学、医学和物理任务进行的广泛实验表明，我们的方法在增强模型适应性的同时减轻了灾难性遗忘。与以前的方法相比，我们的解决方案大约快20倍，只需要10%-15%的存储空间，突出了实际效率。代码将被发布。

🛎️文章简介

🔸研究问题：大语言模型（LLM）进行领域特定微调时出现灾难性遗忘，即在适应新领域的同时难以保持模型的通用能力。

🔸主要贡献：论文提出了一种新的微调框架，通过自适应层和元素正则化，有效减少了灾难性遗忘，同时显著降低了计算时间和存储需求，提升了模型的效率和可扩展性。

📝重点思路

🔸双目标优化策略：结合正则化损失和交叉熵损失，前者减少对通用知识关键参数的更新，后者增强领域特定学习。

🔸元素级重要性记录：通过计算每个参数对损失函数减少的贡献，记录其在通用任务中的重要性，指导新任务的微调过程。

🔸层间加权正则化：根据不同层对通用能力和领域特定能力的贡献，动态调整正则化权重，确保某些层优先学习任务，而其他层保留通用知识。

🔸低秩矩阵更新：使用LoRA（低秩适应）方法，仅更新低秩矩阵，减少计算成本和存储需求。

🔎分析总结

🔸性能提升：在多个数据集上，使用主流LLMs（如GPT-J和LLaMA-3）进行实验，证明了该方法在保持通用能力的同时，显著提升了领域特定任务的性能。

🔸计算效率：与之前的方法相比，计算时间减少了近20倍，存储需求仅为10%∼15%，显著提高了方法的实用性和可扩展性。

🔸正则化系数分析：通过调整正则化系数，找到了在任务性能和通用能力之间取得平衡的最优值。

🔸层间重要性分析：发现不同层对通用知识的保留和领域特定学习的影响不同，验证了层间加权正则化的有效性。

💡个人观点

论文的核心在于识别不同参数和层对新任务的贡献，针对性优化贡献多的部分，而贡献少的则减少训练以维持通用能力。

国防科大：双目标优化防止LLM灾难性遗忘

🌟摘要

🛎️文章简介

📝重点思路

🔎分析总结

💡个人观点

🧩附录