跑大模型的经验

LLama2:

  1. 使用torchrun来跑:

    torchrun --nproc_per_node 1 example_text_completion.py
    --ckpt_dir llama-2-7b/
    --tokenizer_path tokenizer.model
    --max_seq_len 128 --max_batch_size 4

关于集群分布式torchrun命令踩坑记录(自用)-CSDN博客

  1. 显存不够:

减小max_seq_len(生成的最大程度);减小max_batch_size;

  1. MP

模型的分片数量是多少,则MP(Model Parallel)就是多少,--nproc_per_node必须设成多少(设多或设少会报错);

分片格式样例:consolidated.07.pth

  1. chat模型和base模型:

使用chat_completion调用chat模型时,格式是每条一句话,有role字段(system, user, assistant); llama代码内部用这些字段拼接成了input prompt;

使用text_completion调用base模型时,就只输入一个input prompt字符串;

SFT:

可使用transformer的trl库的SFTTrainer类,来做SFT微调训练。

Fine-Tuning LLaMA 2: A Step-by-Step Guide to Customizing the Large Language Model | DataCamp

速度更快的Megatron? DeepSpeed?

相关推荐
天青色等烟雨..1 小时前
R+VIC模型融合实践技术应用及未来气候变化模型预测
大数据·人工智能·arcgis·语言模型·数据分析
暴躁小师兄数据学院2 小时前
【AI大数据工程师特训笔记】第04讲:PostgreSQL 数据库内置函数详解
大数据·数据库·笔记·ai·语言模型
YueJoy.AI4 小时前
AI应用的隐私保护:从设计开始的隐私
人工智能·ai·语言模型
生成论实验室4 小时前
我们给AI装上了判断力
人工智能·深度学习·语言模型·机器人·自动驾驶
YueJoy.AI5 小时前
创业团队如何建立技术品牌
人工智能·ai·语言模型
星辰AI5 小时前
AIOps 实战:智能运维在 AI 应用中的实践
人工智能·ai·语言模型
zhangfeng11336 小时前
vLLM + AWQ 是什么,为什么有算力架构要求 为什么v100默认不支持
人工智能·语言模型·显卡·vllm
AndrewHZ7 小时前
【大模型技术博客】什么是大语言模型(LLM)?从零认识AI新范式
人工智能·深度学习·ai·语言模型·大模型·llm·transformer
星辰AI9 小时前
AI 应用监控与运维:确保系统稳定运行
人工智能·ai·语言模型
星辰AI10 小时前
AI 应用微服务架构设计:从单体到分布式的演进
人工智能·ai·语言模型