跑大模型的经验

LLama2:

  1. 使用torchrun来跑:

    torchrun --nproc_per_node 1 example_text_completion.py
    --ckpt_dir llama-2-7b/
    --tokenizer_path tokenizer.model
    --max_seq_len 128 --max_batch_size 4

关于集群分布式torchrun命令踩坑记录(自用)-CSDN博客

  1. 显存不够:

减小max_seq_len(生成的最大程度);减小max_batch_size;

  1. MP

模型的分片数量是多少,则MP(Model Parallel)就是多少,--nproc_per_node必须设成多少(设多或设少会报错);

分片格式样例:consolidated.07.pth

  1. chat模型和base模型:

使用chat_completion调用chat模型时,格式是每条一句话,有role字段(system, user, assistant); llama代码内部用这些字段拼接成了input prompt;

使用text_completion调用base模型时,就只输入一个input prompt字符串;

SFT:

可使用transformer的trl库的SFTTrainer类,来做SFT微调训练。

Fine-Tuning LLaMA 2: A Step-by-Step Guide to Customizing the Large Language Model | DataCamp

速度更快的Megatron? DeepSpeed?

相关推荐
UQI-LIUWJ2 小时前
论文笔记:Tuning Language Models by Proxy
论文阅读·人工智能·语言模型
茫茫人海一粒沙6 小时前
vLLM 的“投机取巧”:Speculative Decoding 如何加速大语言模型推理
人工智能·语言模型·自然语言处理
音元系统9 小时前
五度标调法调域统计分析工具
语言模型·自然语言处理·语音识别·输入法·语音分类
EulerBlind18 小时前
【运维】SGLang 安装指南
运维·人工智能·语言模型
我不是大佬zvj20 小时前
解决使用vscode连接服务器出现“正在下载 VS Code 服务器...”
语言模型
ReinaXue1 天前
大模型【进阶】(五):低秩适配矩阵LORA的深度认识
人工智能·深度学习·神经网络·语言模型·自然语言处理·transformer
静心问道1 天前
BitDistiller:通过自蒸馏释放 Sub-4-Bit 大语言模型的潜力
人工智能·语言模型·模型加速·ai技术应用
alex1001 天前
AI Agent开发学习系列 - langchain之LCEL(5):如何创建一个Agent?
人工智能·python·语言模型·langchain·prompt·向量数据库·ai agent
DisonTangor1 天前
Mistral AI开源 Magistral-Small-2507
人工智能·语言模型·开源·aigc
PPIO派欧云2 天前
PPIO上线阿里旗舰推理模型Qwen3-235B-A22B-Thinking-2507
人工智能·语言模型