论文略读： LLaMA Pro: Progressive LLaMA with Block Expansion

UQI-LIUWJ2024-07-11 2:37

ACL 2024

人类通常在不损害旧技能的情况下获得新技能
- 然而，对于大型语言模型（LLMs），例如从LLaMA到CodeLLaMA，情况正好相反。
- 深度学习笔记：灾难性遗忘-CSDN博客
------>论文提出了一种用于LLMs的新的预训练后方法
- 包括Transformer块的扩展
- 仅使用新语料库调整扩展块，以高效而有效地提升模型的知识，而不引发灾难性的遗忘

在代码和数学语料库上进行实验，得到了LLAMA PRO-8.3B
- 初始化自LLaMA2-7B，在一般任务、编程和数学方面表现出色
- LLAMA PRO及其遵循指令的对应模型（LLAMA PRO - INSTRUCT）在各种基准测试中取得了先进的性能

上一篇：最小生成树(算法篇)

下一篇：【C++】开源：地图投影和坐标转换proj库配置使用

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03BongoCat - 跨平台键盘猫动画工具 04《大数据技术原理与应用》实验报告三熟悉HBase常用操作 05Linux下V2Ray安装配置指南 06GitLab 零基础入门指南：从安装到项目管理全流程 07NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 08jdk21下载、安装（Windows、Linux、macOS）09安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）10在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）