论文略读: LLaMA Pro: Progressive LLaMA with Block Expansion

ACL 2024

  • 人类通常在不损害旧技能的情况下获得新技能
  • ------>论文提出了一种用于LLMs的新的预训练后方法
    • 包括Transformer块的扩展
    • 仅使用新语料库调整扩展块,以高效而有效地提升模型的知识,而不引发灾难性的遗忘
  • 在代码和数学语料库上进行实验,得到了LLAMA PRO-8.3B
    • 初始化自LLaMA2-7B,在一般任务、编程和数学方面表现出色
    • LLAMA PRO及其遵循指令的对应模型(LLAMA PRO - INSTRUCT)在各种基准测试中取得了先进的性能
相关推荐
俊俊谢11 小时前
LLaMA-Factory 部署与 DeepSeek-R1-Distill-Qwen 模型乱码问题解决全记录
机器学习·大模型·llama·qwen·llama-factory·deepseek·hugging-face
pW3g3lLuu19 小时前
大模型学习8上-推理部署框架llama.cpp与Ollama使用指北
学习·llama
owCode20 小时前
Windows RX6500XT(gfx1034) Ollama AMD ROCm 完整安装教程
语言模型·chatgpt·github·llama·gpu算力
染指111021 小时前
44.llama_index-向量模型的使用(在线和本地)
llama·llama_index
武子康7 天前
调查研究-200 llama.cpp b9754:一次很小但很关键的 Agent 工具调用修复
人工智能·agent·llama
AI小百科18 天前
llama.cpp vs vLLM:深度解析与选型指南
llama·vllm
下班走回家19 天前
本地部署大模型的三种方式:Ollama vs vLLM vs llama.cpp
人工智能·llama·vllm
zhy2956321 天前
【DNN】基于llama.cpp的Qwen3-0.6B量化部署微调
人工智能·lora·dnn·llama·qwen3
kuokay22 天前
MLOps 与 AIOps 的核心概
人工智能·分布式·大模型·agent·llama