从零开始训练一个LLM

断断续续大约用了一个月的时间,完全重新训练了一下Cortex LLM,大部分还是在4张4090显卡上训练的。模型还是一个小型的MoE,总参数量大约0.6B,激活参数0.2B。比上一个版本更新了如下内容:

  1. 替换预训练数据集,使用序列猴子通用文本数据集进行预训练。

  2. 采用多阶段预训练和后训练方式。预训练采用两阶段方式,第一阶段上下文长度是512,第二阶段采用YaRN技术将上下文扩展至2048。后训练采用四阶段方式,先在cot数据集上进行SFT,让模型原生支持思考能力,然后使用GSPO增强其逻辑思维能力,再通过融合思考和非思考数据进行SFT,最后使用DPO进行对齐。

  3. 新增思考模式控制,可通过添加/think和/no think控制是否思考。在后训练的第三阶段通过融合cot和非cot数据进行SFT实现。

  4. 新增思考预算功能,可控制思考token长度。该功能通过两次调用生成实现。

最终模型效果

思考模式

非思考模式

思考预算

模型和训练代码完全开放在github上了。

github.com/qibin0506/C...

另外本项目依赖的模型代码和训练代码也已开源,模型支持LLM和VLM。训练代码支持Pretrain、SFT、GRPO、GSPO、DPO,支持ddp和deepspeed zero0-3训练。

github.com/qibin0506/l...

github.com/qibin0506/l...

相关推荐
掘金安东尼41 分钟前
Claude Code 的“隐藏护城河”:GPT-5 也过不去的优化秘密
人工智能·llm
RainbowSea2 小时前
1. LangChain4J 理论概述
java·langchain·llm
RainbowSea3 小时前
2. LangChain4J 中的 Hello World
langchain·llm·ai编程
掘我的金3 小时前
POML 语法基础(Language Basics)
llm
掘我的金3 小时前
POML 模板引擎(Template Engine)
llm
深度学习机器5 小时前
aisuite:统一的大模型SDK,简化LLM开发流程
chatgpt·llm·openai
811735 小时前
我开发了一个面向大模型训练的数据集构建平台:DatasetLoom
开源·llm
用户84913717547161 天前
joyagent智能体学习(第6期)Python工具服务深度剖析
llm·agent
AI大模型1 天前
AI老爱“瞎编”?给它请个RAG“私人秘书”,从此只说真话!
chatgpt·程序员·llm