跑大模型的经验

LLama2:

  1. 使用torchrun来跑:

    torchrun --nproc_per_node 1 example_text_completion.py
    --ckpt_dir llama-2-7b/
    --tokenizer_path tokenizer.model
    --max_seq_len 128 --max_batch_size 4

关于集群分布式torchrun命令踩坑记录(自用)-CSDN博客

  1. 显存不够:

减小max_seq_len(生成的最大程度);减小max_batch_size;

  1. MP

模型的分片数量是多少,则MP(Model Parallel)就是多少,--nproc_per_node必须设成多少(设多或设少会报错);

分片格式样例:consolidated.07.pth

  1. chat模型和base模型:

使用chat_completion调用chat模型时,格式是每条一句话,有role字段(system, user, assistant); llama代码内部用这些字段拼接成了input prompt;

使用text_completion调用base模型时,就只输入一个input prompt字符串;

SFT:

可使用transformer的trl库的SFTTrainer类,来做SFT微调训练。

Fine-Tuning LLaMA 2: A Step-by-Step Guide to Customizing the Large Language Model | DataCamp

速度更快的Megatron? DeepSpeed?

相关推荐
Protein Designer1 小时前
Deepseek-V4-Flash 快速部署与调用指南
语言模型
AI 小老六4 小时前
Claude Code 如何压缩上下文:Microcompact、Prompt Cache 与 cache_edits 工程拆解
数据库·人工智能·ai·语言模型·架构·系统架构
lqqjuly4 小时前
注意力机制完全详解
人工智能·语言模型
风落无尘4 小时前
第十章《多模态与具身》 完整学习资料
人工智能·语言模型·aigc
lqqjuly8 小时前
词嵌入与语言模型详解
人工智能·语言模型
城管不管9 小时前
什么是Prompt?
android·java·数据库·语言模型·llm·prompt
YueJoy.AI9 小时前
AI应用的容器化部署:从Docker到Kubernetes
人工智能·ai·语言模型
学习中.........10 小时前
大语言模型的采样参数与输出控制机制
人工智能·机器学习·语言模型
wabs66610 小时前
本科毕业设计项目——基于RAG与大语言模型的408问答系统设计与实现【检索与生成功能的第三步答案生成是怎么实现的?】
人工智能·语言模型·自然语言处理
z小猫不吃鱼11 小时前
09 GPT-2 论文精读:语言模型如何走向 Zero-shot?
人工智能·gpt·语言模型