跑大模型的经验

LLama2:

  1. 使用torchrun来跑:

    torchrun --nproc_per_node 1 example_text_completion.py
    --ckpt_dir llama-2-7b/
    --tokenizer_path tokenizer.model
    --max_seq_len 128 --max_batch_size 4

关于集群分布式torchrun命令踩坑记录(自用)-CSDN博客

  1. 显存不够:

减小max_seq_len(生成的最大程度);减小max_batch_size;

  1. MP

模型的分片数量是多少,则MP(Model Parallel)就是多少,--nproc_per_node必须设成多少(设多或设少会报错);

分片格式样例:consolidated.07.pth

  1. chat模型和base模型:

使用chat_completion调用chat模型时,格式是每条一句话,有role字段(system, user, assistant); llama代码内部用这些字段拼接成了input prompt;

使用text_completion调用base模型时,就只输入一个input prompt字符串;

SFT:

可使用transformer的trl库的SFTTrainer类,来做SFT微调训练。

Fine-Tuning LLaMA 2: A Step-by-Step Guide to Customizing the Large Language Model | DataCamp

速度更快的Megatron? DeepSpeed?

相关推荐
MoonOutCloudBack6 分钟前
VeRL 框架 RL 微调大语言模型,algorithm.use_pf_ppo 参数详解
人工智能·机器学习·语言模型·自然语言处理
阿杰学AI38 分钟前
AI核心知识98——大语言模型之 Generative AI(简洁且通俗易懂版)
人工智能·语言模型·自然语言处理·aigc·生成式ai·generative ai
阿杰学AI1 小时前
AI核心知识108—大语言模型之 AI Aesthetics Engineer(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·新型职业·ai美学工程师
陈天伟教授1 小时前
人工智能应用- 搜索引擎:06. PageRank 算法
神经网络·搜索引擎·语言模型·自然语言处理·机器翻译
大模型任我行2 小时前
阿里:具身智能模型ABot-M0
人工智能·语言模型·自然语言处理·论文笔记
阿杰学AI3 小时前
AI核心知识107—大语言模型之 Prompt Engineer(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·prompt engineer·提示词工程师
量子-Alex13 小时前
【大模型思维链】自洽性提升语言模型中的思维链推理能力
人工智能·语言模型·自然语言处理
硅谷秋水14 小时前
RoboBrain 2.5:视野中的深度,思维中的时间
深度学习·机器学习·计算机视觉·语言模型·机器人
MaoziShan15 小时前
CMU Subword Modeling | 07 Allomorphy
人工智能·机器学习·语言模型·自然语言处理
minhuan19 小时前
大模型应用:轻量化视觉语言模型(VLM):基于Qwen2-VL多模态模型实践.87
人工智能·语言模型·自然语言处理·qwen2-vl·轻量化vlm模型