跑大模型的经验

LLama2:

  1. 使用torchrun来跑:

    torchrun --nproc_per_node 1 example_text_completion.py
    --ckpt_dir llama-2-7b/
    --tokenizer_path tokenizer.model
    --max_seq_len 128 --max_batch_size 4

关于集群分布式torchrun命令踩坑记录(自用)-CSDN博客

  1. 显存不够:

减小max_seq_len(生成的最大程度);减小max_batch_size;

  1. MP

模型的分片数量是多少,则MP(Model Parallel)就是多少,--nproc_per_node必须设成多少(设多或设少会报错);

分片格式样例:consolidated.07.pth

  1. chat模型和base模型:

使用chat_completion调用chat模型时,格式是每条一句话,有role字段(system, user, assistant); llama代码内部用这些字段拼接成了input prompt;

使用text_completion调用base模型时,就只输入一个input prompt字符串;

SFT:

可使用transformer的trl库的SFTTrainer类,来做SFT微调训练。

Fine-Tuning LLaMA 2: A Step-by-Step Guide to Customizing the Large Language Model | DataCamp

速度更快的Megatron? DeepSpeed?

相关推荐
Jamence8 小时前
多模态大语言模型arxiv论文略读(七十五)
人工智能·语言模型·自然语言处理
小众AI8 小时前
UI-TARS: 基于视觉语言模型的多模式代理
人工智能·ui·语言模型
微凉的衣柜10 小时前
使用GRPO训练调度事件的语言模型!
语言模型·推理模型
fydw_71510 小时前
级联与端到端对话系统架构解析:以Moshi为例
语言模型
艾醒(AiXing-w)11 小时前
探索大语言模型(LLM):国产大模型DeepSeek vs Qwen,谁才是AI模型的未来?
大数据·人工智能·语言模型
AI大模型顾潇15 小时前
[特殊字符] 本地大模型编程实战(29):用大语言模型LLM查询图数据库NEO4J(2)
前端·数据库·人工智能·语言模型·自然语言处理·prompt·neo4j
tongxianchao16 小时前
精简大语言模型:用于定制语言模型的自适应知识蒸馏
人工智能·语言模型·自然语言处理
侃山16 小时前
NNLM神经网络语言模型总结
人工智能·神经网络·语言模型
yu4106211 天前
2025年中期大语言模型实力深度剖析
人工智能·语言模型·自然语言处理
LinkTime_Cloud1 天前
谷歌引入 AI 反诈系统:利用语言模型分析潜在恶意网站
人工智能·语言模型·自然语言处理