论文略读: LLaMA Pro: Progressive LLaMA with Block Expansion

ACL 2024

  • 人类通常在不损害旧技能的情况下获得新技能
  • ------>论文提出了一种用于LLMs的新的预训练后方法
    • 包括Transformer块的扩展
    • 仅使用新语料库调整扩展块,以高效而有效地提升模型的知识,而不引发灾难性的遗忘
  • 在代码和数学语料库上进行实验,得到了LLAMA PRO-8.3B
    • 初始化自LLaMA2-7B,在一般任务、编程和数学方面表现出色
    • LLAMA PRO及其遵循指令的对应模型(LLAMA PRO - INSTRUCT)在各种基准测试中取得了先进的性能
相关推荐
风起晨曦2 天前
LLaMa Factory 安装
llama
运维开发王义杰2 天前
AI: Unsloth + Llama 3 微调实践,基于Colab
人工智能·llama
风起晨曦2 天前
(LLaMa Factory)大模型训练方法--预训练(Qwen2-0.5B)
llama
风起晨曦2 天前
(LLaMa Factory)大模型训练方法--监督微调(Qwen2-0.5B)
llama
mygodalien2 天前
Win7编译GPU版llama.cpp部署deepseek-r1等大模型记录
人工智能·机器学习·chatgpt·llama
shandianchengzi3 天前
【BUG】LLM|Ubuntu 用 ollama 部署 DeepSeek 但没输出,llama 有输出
ubuntu·llm·bug·llama·ollama·deepseek
翻滚的小@强3 天前
Llama3.0论文学习笔记: The Llama 3 Herd of Models
大语言模型·llama
智模睿脑君5 天前
多模态本地部署和ollama部署Llama-Vision实现视觉问答
人工智能·计算机视觉·语言模型·ai作画·视觉检测·transformer·llama
闻道且行之5 天前
大预言模型|微调大预言模型初探索(LLaMA-Factory)(1)
语言模型·llama
uncle_ll5 天前
基于 llama-index与Qwen大模型实现RAG
大模型·llm·llama·qwen·rag