论文略读: LLaMA Pro: Progressive LLaMA with Block Expansion

ACL 2024

  • 人类通常在不损害旧技能的情况下获得新技能
  • ------>论文提出了一种用于LLMs的新的预训练后方法
    • 包括Transformer块的扩展
    • 仅使用新语料库调整扩展块,以高效而有效地提升模型的知识,而不引发灾难性的遗忘
  • 在代码和数学语料库上进行实验,得到了LLAMA PRO-8.3B
    • 初始化自LLaMA2-7B,在一般任务、编程和数学方面表现出色
    • LLAMA PRO及其遵循指令的对应模型(LLAMA PRO - INSTRUCT)在各种基准测试中取得了先进的性能
相关推荐
骑士9991113 天前
llama_factory 安装以及大模型微调
llama
周小码3 天前
llama-stack实战:Python构建Llama应用的可组合开发框架(8k星)
开发语言·python·llama
blackoon886 天前
DeepSeek R1大模型微调实战-llama-factory的模型下载与训练
llama
johnny2336 天前
大模型微调理论、实战:LLaMA-Factory、Unsloth
llama
闲看云起6 天前
从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型
gpt·架构·llama
小草cys7 天前
在树莓派集群上部署 Distributed Llama (Qwen 3 14B) 详细指南
python·llama·树莓派·qwen
咕咚-萌西8 天前
联邦学习论文分享:Towards Building the Federated GPT:Federated Instruction Tuning
llama·联邦学习·指令微调
relis9 天前
解密llama.cpp中的batch与ubatch:深度学习推理优化的内存艺术
深度学习·batch·llama
relis9 天前
解密llama.cpp:Prompt Processing如何实现高效推理?
prompt·llama
GEO_JYB10 天前
BERT家族进化史:从BERT到LLaMA,每一次飞跃都源于对“学习”的更深理解
学习·bert·llama