论文略读: LLaMA Pro: Progressive LLaMA with Block Expansion

ACL 2024

  • 人类通常在不损害旧技能的情况下获得新技能
  • ------>论文提出了一种用于LLMs的新的预训练后方法
    • 包括Transformer块的扩展
    • 仅使用新语料库调整扩展块,以高效而有效地提升模型的知识,而不引发灾难性的遗忘
  • 在代码和数学语料库上进行实验,得到了LLAMA PRO-8.3B
    • 初始化自LLaMA2-7B,在一般任务、编程和数学方面表现出色
    • LLAMA PRO及其遵循指令的对应模型(LLAMA PRO - INSTRUCT)在各种基准测试中取得了先进的性能
相关推荐
chushiyunen11 小时前
llama-index rag框架笔记
chrome·笔记·llama
青梅煮酒与君饮11 小时前
浅谈大模型、Agent、Function Calling、MCP、Skill、Subagent、Langchain、Workflow
人工智能·python·语言模型·langchain·llama
chushiyunen14 小时前
llama-index 数据清洗示例、数据清洗等
java·大数据·llama
d1z88815 小时前
llama.cpp 性能测试数据汇总 - NVIDIA DGX Spark 对比分析
人工智能·llama·显卡
爱打代码的小林2 天前
LLaMA Factory使用
人工智能·大模型·llama
薛不痒2 天前
Llamafactory的使用(1)
人工智能·python·llama
yumgpkpm2 天前
华为昇腾910B(Ascend 910B)+ LLaMA-Factory 对 Qwen3.5-32B 模型进行 LoRA 微调 的全流程操作指南
开源·prompt·copilot·embedding·llama·gpu算力·gitcode
竹之却3 天前
【OpenClaw】云服务器端 openclaw 集成本地 Windows端 ollama 模型
windows·llama·ollama·openclaw·qwen3.5
王小义笔记3 天前
模型微调使用LLaMA-Factory教程
语言模型·llama
CHPCWWHSU4 天前
模型加载与初始化(3)
llm·llama·cpp·cudatoolkit