从零开始训练一个LLM

断断续续大约用了一个月的时间,完全重新训练了一下Cortex LLM,大部分还是在4张4090显卡上训练的。模型还是一个小型的MoE,总参数量大约0.6B,激活参数0.2B。比上一个版本更新了如下内容:

  1. 替换预训练数据集,使用序列猴子通用文本数据集进行预训练。

  2. 采用多阶段预训练和后训练方式。预训练采用两阶段方式,第一阶段上下文长度是512,第二阶段采用YaRN技术将上下文扩展至2048。后训练采用四阶段方式,先在cot数据集上进行SFT,让模型原生支持思考能力,然后使用GSPO增强其逻辑思维能力,再通过融合思考和非思考数据进行SFT,最后使用DPO进行对齐。

  3. 新增思考模式控制,可通过添加/think和/no think控制是否思考。在后训练的第三阶段通过融合cot和非cot数据进行SFT实现。

  4. 新增思考预算功能,可控制思考token长度。该功能通过两次调用生成实现。

最终模型效果

思考模式

非思考模式

思考预算

模型和训练代码完全开放在github上了。

github.com/qibin0506/C...

另外本项目依赖的模型代码和训练代码也已开源,模型支持LLM和VLM。训练代码支持Pretrain、SFT、GRPO、GSPO、DPO,支持ddp和deepspeed zero0-3训练。

github.com/qibin0506/l...

github.com/qibin0506/l...

相关推荐
镰刀韭菜4 小时前
【AI4S】DrugChat:迈向在药物分子图上实现类似ChatGPT的功能
llm·图神经网络·预训练·gnn·ai4s·drugchat·药物分子图谱
山顶夕景1 天前
【LLM-RL】GSPO算法Group Sequence Policy Optimization
llm·强化学习·rlhf·gspo
余衫马1 天前
llama.cpp:本地大模型推理的高性能 C++ 框架
c++·人工智能·llm·llama·大模型部署
yaocheng的ai分身2 天前
A16Z 大佬 Alex Rampell《Software Is Eating Labor》演讲
llm
utmhikari2 天前
【测试人生】LLM赋能游戏自动化测试的一些想法
自动化测试·游戏·ai·大模型·llm·游戏测试
智泊AI2 天前
突然发现:大模型RAG优化思路真的好清晰!
llm
玩转AGI2 天前
【必收藏】12-Factor Agents:让大模型Agent从能跑起来到能用起来的企业级设计指南
人工智能·程序员·llm
数据智能老司机2 天前
建构 AI Agent 应用——保护代理式系统
架构·llm·agent
夫子3963 天前
【深度干货】Transformer推理优化完全指南:模型压缩、推理加速与硬件调优
人工智能·llm
智泊AI3 天前
终于有人把AI大模型训练过程讲明白了!!!
llm