跑大模型的经验

LLama2:

  1. 使用torchrun来跑:

    torchrun --nproc_per_node 1 example_text_completion.py
    --ckpt_dir llama-2-7b/
    --tokenizer_path tokenizer.model
    --max_seq_len 128 --max_batch_size 4

关于集群分布式torchrun命令踩坑记录(自用)-CSDN博客

  1. 显存不够:

减小max_seq_len(生成的最大程度);减小max_batch_size;

  1. MP

模型的分片数量是多少,则MP(Model Parallel)就是多少,--nproc_per_node必须设成多少(设多或设少会报错);

分片格式样例:consolidated.07.pth

  1. chat模型和base模型:

使用chat_completion调用chat模型时,格式是每条一句话,有role字段(system, user, assistant); llama代码内部用这些字段拼接成了input prompt;

使用text_completion调用base模型时,就只输入一个input prompt字符串;

SFT:

可使用transformer的trl库的SFTTrainer类,来做SFT微调训练。

Fine-Tuning LLaMA 2: A Step-by-Step Guide to Customizing the Large Language Model | DataCamp

速度更快的Megatron? DeepSpeed?

相关推荐
Omics Pro6 小时前
华大等NC|微生物多样性与抗菌物质发现
大数据·人工智能·深度学习·语言模型·excel
Yuer20257 小时前
幻觉量化(Hallucination Quantization):从随机语言模型到确定性交付系统的工程范式
大数据·人工智能·语言模型
Zzj_tju8 小时前
大语言模型部署实战:从 Ollama、vLLM 到 SGLang,本地服务到底怎么搭?
人工智能·语言模型·自然语言处理·vllm
斯班奇的好朋友阿法法8 小时前
本地ollama大模型速度慢的优化
python·语言模型
MaoziShan10 小时前
CMU Subword Modeling | 22 Phonological Similarity and Cognate Detection
人工智能·语言模型·自然语言处理·分类
MaoziShan10 小时前
CMU Subword Modeling | 23 Syllables and Syllabification
前端·人工智能·机器学习·语言模型·自然语言处理·中文分词
ACCELERATOR_LLC11 小时前
【DataWhale组队学习】DIY-LLM Task3 语言模型架构和训练的技术细节
人工智能·学习·语言模型·transformer
05大叔11 小时前
语言模型 预训练语言模型BERT - 结构Transformer
人工智能·深度学习·语言模型
05大叔12 小时前
语言模型学习-统计语言模型 神经语言模型
人工智能·语言模型·自然语言处理
可乐要加冰^-^12 小时前
Vscode、Pycharm快速配置Claude、CodeX
数据结构·深度学习·算法·语言模型·自动驾驶