论文略读: LLaMA Pro: Progressive LLaMA with Block Expansion

ACL 2024

  • 人类通常在不损害旧技能的情况下获得新技能
  • ------>论文提出了一种用于LLMs的新的预训练后方法
    • 包括Transformer块的扩展
    • 仅使用新语料库调整扩展块,以高效而有效地提升模型的知识,而不引发灾难性的遗忘
  • 在代码和数学语料库上进行实验,得到了LLAMA PRO-8.3B
    • 初始化自LLaMA2-7B,在一般任务、编程和数学方面表现出色
    • LLAMA PRO及其遵循指令的对应模型(LLAMA PRO - INSTRUCT)在各种基准测试中取得了先进的性能
相关推荐
修一呀1 小时前
[大模型微调]基于llama_factory用 LoRA 高效微调 Qwen3 医疗大模型:从原理到实现
人工智能·llama·大模型微调
liliangcsdn1 小时前
基于llama.cpp的量化版reranker模型调用示例
人工智能·数据分析·embedding·llama·rerank
gptplusplus1 小时前
Meta AI 剧变:汪滔挥刀重组,Llama 开源路线告急,超级智能梦碎还是重生?
人工智能·开源·llama
AI大模型5 天前
基于 Docker 的 LLaMA-Factory 全流程部署指南
docker·llm·llama
m0_6038887111 天前
LLaMA-Adapter V2 Parameter-Efficient Visual Instruction Model
人工智能·深度学习·ai·llama·论文速览
三千院本院15 天前
LlaMA_Factory实战微调VL大模型
llama
爱分享的飘哥20 天前
第四十六章:AI的“瞬时记忆”与“高效聚焦”:llama.cpp的KV Cache与Attention机制
llama·llama.cpp·kv cache·attention优化·llm cpu推理·量化attention·gguf推理
psyq21 天前
LLaMA Factory 角色扮演模型微调实践记录
人工智能·llama
liliangcsdn1 个月前
mac测试ollama llamaindex
数据仓库·人工智能·prompt·llama
茫茫人海一粒沙1 个月前
使用 LLaMA 3 8B 微调一个 Reward Model:从入门到实践
llama