跑大模型的经验

LLama2:

  1. 使用torchrun来跑:

    torchrun --nproc_per_node 1 example_text_completion.py
    --ckpt_dir llama-2-7b/
    --tokenizer_path tokenizer.model
    --max_seq_len 128 --max_batch_size 4

关于集群分布式torchrun命令踩坑记录(自用)-CSDN博客

  1. 显存不够:

减小max_seq_len(生成的最大程度);减小max_batch_size;

  1. MP

模型的分片数量是多少,则MP(Model Parallel)就是多少,--nproc_per_node必须设成多少(设多或设少会报错);

分片格式样例:consolidated.07.pth

  1. chat模型和base模型:

使用chat_completion调用chat模型时,格式是每条一句话,有role字段(system, user, assistant); llama代码内部用这些字段拼接成了input prompt;

使用text_completion调用base模型时,就只输入一个input prompt字符串;

SFT:

可使用transformer的trl库的SFTTrainer类,来做SFT微调训练。

Fine-Tuning LLaMA 2: A Step-by-Step Guide to Customizing the Large Language Model | DataCamp

速度更快的Megatron? DeepSpeed?

相关推荐
如此这般英俊6 小时前
手撕Claude Code—第一章 agent-loop
数据结构·人工智能·语言模型·自然语言处理
纤纡.10 小时前
阿里云 DSW 实战:从零完成 Qwen3-4B 大模型 LoRA 微调全流程
人工智能·阿里云·语言模型·云计算
bupt_0112 小时前
claudecode深入理解及源码解析(一):从 main.tsx 入口到对话闭环
人工智能·语言模型
weixin_4462608513 小时前
局部相合,全局不一致:多组件大型语言模型智能体中组合不一致性的界定
人工智能·语言模型·概率论
z小猫不吃鱼14 小时前
10 GPT-3 论文精读:Few-shot Learning 为什么会出现?
人工智能·语言模型·自然语言处理·gpt-3
DisonTangor14 小时前
跃阶星辰开源Step 3.7 Flash:原生多模态,最高生成速度400 Tokens/s
人工智能·语言模型·数据挖掘·开源·aigc
wabs66615 小时前
本科毕业设计项目——基于RAG与大语言模型的408问答系统设计与实现【用户端的提问逻辑是怎么实现的?】
人工智能·语言模型·自然语言处理
weixin_4462608515 小时前
SpecBench:软件工程中大型语言模型智能体的规范级推理评估
人工智能·语言模型·软件工程
weixin_4684668516 小时前
大语言模型原理新手入门指南
人工智能·python·算法·语言模型·自然语言处理·transformer·注意力机制
YueJoy.AI16 小时前
AI应用的数据分析:从采集到决策
人工智能·ai·语言模型