跑大模型的经验

LLama2:

  1. 使用torchrun来跑:

    torchrun --nproc_per_node 1 example_text_completion.py
    --ckpt_dir llama-2-7b/
    --tokenizer_path tokenizer.model
    --max_seq_len 128 --max_batch_size 4

关于集群分布式torchrun命令踩坑记录(自用)-CSDN博客

  1. 显存不够:

减小max_seq_len(生成的最大程度);减小max_batch_size;

  1. MP

模型的分片数量是多少,则MP(Model Parallel)就是多少,--nproc_per_node必须设成多少(设多或设少会报错);

分片格式样例:consolidated.07.pth

  1. chat模型和base模型:

使用chat_completion调用chat模型时,格式是每条一句话,有role字段(system, user, assistant); llama代码内部用这些字段拼接成了input prompt;

使用text_completion调用base模型时,就只输入一个input prompt字符串;

SFT:

可使用transformer的trl库的SFTTrainer类,来做SFT微调训练。

Fine-Tuning LLaMA 2: A Step-by-Step Guide to Customizing the Large Language Model | DataCamp

速度更快的Megatron? DeepSpeed?

相关推荐
Carl_奕然11 小时前
【智能体】Agent的四种设计模式之:ReAct
人工智能·设计模式·语言模型
量子-Alex12 小时前
【大模型】监督微调与强化学习:大型语言模型后训练方法的研究
人工智能·语言模型·自然语言处理
ybdesire14 小时前
间接提示词注入真实样例鉴赏
网络安全·语言模型·漏洞·漏洞分析
墨心@1 天前
赋予智能体技能,让其胜任现实世界任务
语言模型·大语言模型·agent
还是奇怪1 天前
AI 提示词工程入门:用好的语言与模型高效对话
大数据·人工智能·语言模型·自然语言处理·transformer
迁旭1 天前
claude code 提示词
人工智能·语言模型·gpt-3·知识图谱
硅谷秋水1 天前
ClawVM:有状态工具LLM智体的Harness管理型虚拟内存
人工智能·深度学习·语言模型
迁旭1 天前
OpenAI API 请求与响应 核心总结
人工智能·机器学习·语言模型·gpt-3
AI周红伟1 天前
周红伟:OpenClaw安全防控:OpenClaw+Skills+DeepSeek-V4大模型安全部署、实操和企业应用实操
人工智能·深度学习·安全·机器学习·语言模型·openclaw
小超同学你好2 天前
OpenClaw 深度解析与源代码导读 · 第11篇:子 Agent(Sub-Agent)——隔离执行与“向上汇报“的有限协作
人工智能·语言模型·transformer