跑大模型的经验

LLama2:

  1. 使用torchrun来跑:

    torchrun --nproc_per_node 1 example_text_completion.py
    --ckpt_dir llama-2-7b/
    --tokenizer_path tokenizer.model
    --max_seq_len 128 --max_batch_size 4

关于集群分布式torchrun命令踩坑记录(自用)-CSDN博客

  1. 显存不够:

减小max_seq_len(生成的最大程度);减小max_batch_size;

  1. MP

模型的分片数量是多少,则MP(Model Parallel)就是多少,--nproc_per_node必须设成多少(设多或设少会报错);

分片格式样例:consolidated.07.pth

  1. chat模型和base模型:

使用chat_completion调用chat模型时,格式是每条一句话,有role字段(system, user, assistant); llama代码内部用这些字段拼接成了input prompt;

使用text_completion调用base模型时,就只输入一个input prompt字符串;

SFT:

可使用transformer的trl库的SFTTrainer类,来做SFT微调训练。

Fine-Tuning LLaMA 2: A Step-by-Step Guide to Customizing the Large Language Model | DataCamp

速度更快的Megatron? DeepSpeed?

相关推荐
gorgeous(๑>؂<๑)1 小时前
【电子科大-李晶晶组-AAAI26】利用专用提示引导泛化视觉 - 语言模型
人工智能·语言模型·自然语言处理
程序员果子1 小时前
GraphRAG:让大模型在知识图谱中精准导航
人工智能·git·语言模型·aigc·知识图谱
可乐要加冰^-^4 小时前
RL for LLM(large language model)
人工智能·语言模型·自然语言处理
大模型最新论文速读4 小时前
ProFit: 屏蔽低概率 token,解决 SFT 过拟合问题
人工智能·深度学习·机器学习·语言模型·自然语言处理
yangpipi-5 小时前
第一章 语言模型基础
人工智能·语言模型·自然语言处理
lizhenning876 小时前
语言模型与动词知识库协同创新
人工智能·语言模型·自然语言处理
大模型任我行7 小时前
亚马逊:对话Agent轨迹学习框架WISE-Flow
人工智能·语言模型·自然语言处理·论文笔记
码上掘金7 小时前
基于YOLO和大语言模型的交通标识智能识别系统
人工智能·yolo·语言模型
huazi-J7 小时前
Datawhale Happy-LLM 课程 task 4:Encoder-Decoder
语言模型·大模型·transformer·datawhale
算法狗27 小时前
大模型中哪些模型用到的pre-norm和post-norm技术的?
人工智能·深度学习·机器学习·语言模型·面试题