跑大模型的经验

LLama2:

  1. 使用torchrun来跑:

    torchrun --nproc_per_node 1 example_text_completion.py
    --ckpt_dir llama-2-7b/
    --tokenizer_path tokenizer.model
    --max_seq_len 128 --max_batch_size 4

关于集群分布式torchrun命令踩坑记录(自用)-CSDN博客

  1. 显存不够:

减小max_seq_len(生成的最大程度);减小max_batch_size;

  1. MP

模型的分片数量是多少,则MP(Model Parallel)就是多少,--nproc_per_node必须设成多少(设多或设少会报错);

分片格式样例:consolidated.07.pth

  1. chat模型和base模型:

使用chat_completion调用chat模型时,格式是每条一句话,有role字段(system, user, assistant); llama代码内部用这些字段拼接成了input prompt;

使用text_completion调用base模型时,就只输入一个input prompt字符串;

SFT:

可使用transformer的trl库的SFTTrainer类,来做SFT微调训练。

Fine-Tuning LLaMA 2: A Step-by-Step Guide to Customizing the Large Language Model | DataCamp

速度更快的Megatron? DeepSpeed?

相关推荐
硅谷秋水10 小时前
FATE:面向物理落地机器人课程学习具备主动修复功能且考虑可行性-觉察的闭环任务生成方法
人工智能·深度学习·语言模型·机器人
A.说学逗唱的Coke11 小时前
【大模型专题】Qoder 实战指南:从安装到 Agents 自主开发全流程
人工智能·语言模型
阿拉雷️14 小时前
AI Agent 入门与实战:从对话到干活,理解下一代AI工作方式
人工智能·语言模型·prompt
MartinYeung514 小时前
[论文学习]BackdoorLLM:大语言模型后门攻击与防御的综合性基准——深度解析
人工智能·学习·语言模型
大模型任我行14 小时前
百度:渐进多令牌预测加速文档解析
人工智能·语言模型·自然语言处理·论文笔记
阿拉雷️1 天前
Prompt工程设计实践:从基础模板到场景化策略
人工智能·语言模型·prompt
江华森1 天前
人工智能 AI 大语言模型 多模态 — 从 API 调用到 Agent 实战
人工智能·语言模型·自然语言处理
枫叶林FYL1 天前
ReMoT:运动对比三元组强化学习——解决视觉语言模型的时空一致性缺陷
人工智能·计算机视觉·语言模型
owCode1 天前
Windows RX6500XT(gfx1034) Ollama AMD ROCm 完整安装教程
语言模型·chatgpt·github·llama·gpu算力
Zzj_tju2 天前
Test-Time Scaling 与推理时计算:搜索、验证器、反思和自一致性
人工智能·学习·语言模型