国防科大:双目标优化防止LLM灾难性遗忘

📖标题:How to Complete Domain Tuning while Keeping General Ability in LLM: Adaptive Layer-wise and Element-wise Regularization

🌐来源:arXiv, 2501.13669

🌟摘要

🔸大型语言模型(LLM)展现出强大的通用语言能力。然而,在特定领域的任务上对这些模型进行微调通常会导致灾难性的遗忘,即模型覆盖或丢失在预训练期间获得的基本知识。这种现象极大地限制了LLM的广泛适用性。

🔸为了应对这一挑战,我们提出了一种新的方法来计算模型参数的元素重要性,这些参数对于在微调过程中保留一般知识至关重要。我们的方法采用了一种双目标优化策略:(1)正则化损失,以保留对一般知识至关重要的参数;(2) 交叉熵损失,以适应特定领域的任务。此外,我们引入逐层系数来解释不同层的不同贡献,动态平衡双射优化。

🔸使用GPTJ和LLaMA-3对科学、医学和物理任务进行的广泛实验表明,我们的方法在增强模型适应性的同时减轻了灾难性遗忘。与以前的方法相比,我们的解决方案大约快20倍,只需要10%-15%的存储空间,突出了实际效率。代码将被发布。

🛎️文章简介

🔸研究问题:大语言模型(LLM)进行领域特定微调时出现灾难性遗忘,即在适应新领域的同时难以保持模型的通用能力。

🔸主要贡献:论文提出了一种新的微调框架,通过自适应层和元素正则化,有效减少了灾难性遗忘,同时显著降低了计算时间和存储需求,提升了模型的效率和可扩展性。

📝重点思路

🔸双目标优化策略:结合正则化损失和交叉熵损失,前者减少对通用知识关键参数的更新,后者增强领域特定学习。

🔸元素级重要性记录:通过计算每个参数对损失函数减少的贡献,记录其在通用任务中的重要性,指导新任务的微调过程。

🔸层间加权正则化:根据不同层对通用能力和领域特定能力的贡献,动态调整正则化权重,确保某些层优先学习任务,而其他层保留通用知识。

🔸低秩矩阵更新:使用LoRA(低秩适应)方法,仅更新低秩矩阵,减少计算成本和存储需求。

🔎分析总结

🔸性能提升:在多个数据集上,使用主流LLMs(如GPT-J和LLaMA-3)进行实验,证明了该方法在保持通用能力的同时,显著提升了领域特定任务的性能。

🔸计算效率:与之前的方法相比,计算时间减少了近20倍,存储需求仅为10%∼15%,显著提高了方法的实用性和可扩展性。

🔸正则化系数分析:通过调整正则化系数,找到了在任务性能和通用能力之间取得平衡的最优值。

🔸层间重要性分析:发现不同层对通用知识的保留和领域特定学习的影响不同,验证了层间加权正则化的有效性。

💡个人观点

论文的核心在于识别不同参数和层对新任务的贡献,针对性优化贡献多的部分,而贡献少的则减少训练以维持通用能力。

🧩附录


相关推荐
@心都31 分钟前
机器学习数学基础:44.多元线性回归
人工智能·机器学习·线性回归
说私域31 分钟前
基于开源AI大模型的精准零售模式创新——融合AI智能名片与S2B2C商城小程序源码的“人工智能 + 线下零售”路径探索
人工智能·搜索引擎·小程序·开源·零售
熊文豪34 分钟前
Windows本地部署OpenManus并接入Mistral模型的实践记录
人工智能·llm·mistral·manus·openmanus·openmanus开源替代方案·本地llm部署实践
IT猿手36 分钟前
2025最新群智能优化算法:海市蜃楼搜索优化(Mirage Search Optimization, MSO)算法求解23个经典函数测试集,MATLAB
开发语言·人工智能·算法·机器学习·matlab·机器人
IT猿手3 小时前
2025最新群智能优化算法:山羊优化算法(Goat Optimization Algorithm, GOA)求解23个经典函数测试集,MATLAB
人工智能·python·算法·数学建模·matlab·智能优化算法
Jet45054 小时前
玩转ChatGPT:GPT 深入研究功能
人工智能·gpt·chatgpt·deep research·深入研究
毕加锁4 小时前
chatgpt完成python提取PDF简历指定内容的案例
人工智能·chatgpt
Wis4e6 小时前
基于PyTorch的深度学习3——基于autograd的反向传播
人工智能·pytorch·深度学习
西猫雷婶6 小时前
神经网络|(十四)|霍普菲尔德神经网络-Hebbian训练
人工智能·深度学习·神经网络
梦丶晓羽7 小时前
自然语言处理:文本分类
人工智能·python·自然语言处理·文本分类·朴素贝叶斯·逻辑斯谛回归