文章目录
目标
1个月内学会大模型预训练微调强化学习基本原理,做一个github项目然后找到大模型强化学习或者agent应用等实习,在农历春节之前。
2026年1月5日-1月11日 总结当前进展,明确下周方向 1月12号-1月16号
进展
- 主要学习项目 https://github.com/datawhalechina/happy-llm 的docs/chapter5/第五章动手搭建大模型.md(动手实现一个 LLaMA2 大模型)。
- 学习方式是按照章节顺序手敲代码。主要实现的结构有ModelConfig, RMSNorm, ROPE, Attention and GQA, LLaMA2 MLP模块, DecoderLayer, Transformer, Tokenizer用的是BPE(这部分用的是已有的库里面的BPE,只是跟着写了一下外围的训练代码,但是也没训练完成因为使用的数据集有点大,第一次训练把内存吃了127GB,我就考虑直接下载训练好的tokenizer.json来用了,假装自己已经训练过了,BPE还没有自己实现过,斯坦福CS336课程第一个作业要求自己实现BPE,我正好借助它的平台实现一下)
- 很多细节点比如说旋转位置编码,pytorch矩阵乘法和实际乘法需要自动转置,交叉熵损失公式等,我是通过与大模型对话进行学习的。
总结
- 本次学习较为专注。按照清晰的代码学习和运行。每个结构的公式和一些不懂的细节都会去查阅,记笔记。我觉得这周学习不错。打通了注意力机制和模型训练工程实现的整个链路。
- 本周学习不足: 1 没有完整实现tokenizer的训练 2 对tokenizer部分尤其是BPE的理解因为项目没有详细代码而尚未掌握 3 没有进行模型完整的训练,作者说 8*4090要46小时。我的组里确实有8块4090,但我不确定要不要训练,还是到目前为止掌握当前的代码继续往下学。
接下来方向
大模型在2025年仍然没有可靠的学习路径。需要自己根据自己的实际情况找到适合自己节奏的方向进行学习,查缺补漏。这不失为一种超越了应试教育,摆脱了教科书的新型学习方式。不能在这里迷路,要尽快充实自己,走出这片可深可浅的知识森林。
方向 1 继续巩固happyllm代码,自己抓紧时间实现BPE部分。学习最后本章第五章最后两段预训练和微调代码。
方向 2 开始学习第6章 【在本章中,我们将介绍目前 LLM 领域的主流训练框架 Transformers,并结合分布式框架 deepspeed、高效微调框架 peft 等主流框架,实践使用 transformers 进行模型 Pretrain、SFT 全流程,更好地对接业界的主流 LLM 技术方案】。
我的担忧:我担心学这些框架增益没那么大,不如学点GRPO PPO来的增长多,毕竟我想先把核心学了抓紧时间做项目放简历上。但是我又怕这个框架不学到时候做项目缺少必要知识。
方向 3 收尾第五章之后开始看第五章 agent内容,【本章将重点探讨大模型在实际应用中的关键技术和框架,涵盖大模型评测、RAG(检索增强生成)以及Agent(智能体)等核心内容,帮助读者深入理解大模型的实际应用场景和实现方法。】
优点:学完这部分之后,方便直接开始项目准备。
缺点:我想找点大模型强化学习相关的实习,不太想搞应用,应用还是有点偏开发,我希望偏向于算法。
方向 4 因为happy_llm没有太多微调和强化学习内容,基础打好后转入minimind(https://github.com/jingyaogong/minimind)【项目同时开源了大模型的极简结构-包含拓展共享混合专家(MoE)、数据集清洗、预训练(Pretrain)、监督微调(SFT)、LoRA微调、直接偏好优化(DPO)、强化学习训练(RLAIF: PPO/GRPO等)、模型蒸馏等全过程代码。】快速复习预训练的注意力机制等等,继续学习SFT和强化学习PPO,GRPO内容。
优点:开源,能复习,有强化学习
缺点:可能需要把happyllm先好好收尾再去学下一个,防止学习不深刻,无效学习。
方向 5 学习国外开源仓库Andrej karpathy 的最新作品。他的作品历经miniGPT ->nanoGPT ->nanochat。我想学习一下最新版本 nanochat(https://github.com/karpathy/nanochat)

优点: 国外优秀成果,可能有新内容学到。
缺点: 预训练和微调的部分可能会和happy_llm重叠,浪费时间。
方向 6 去完成CS336作业 能够复习BPE 还能动手实现一些已经学过的内容。最关键的是这个作业有完善的检查环境,可以检验我的学习成果。
方向 7 开始每天看一节李宏毅强化学习课程(https://www.bilibili.com/video/BV15hw9euExZ),确保自己的强化学习竞争力,为后续学习DPO, GRPO打下基础。
方向 8 开始读一些有名的技术报告 比如说llama2,deepseek, 巩固最近学习的模型架构内容,找到新的学习点,更加贴近项目实战和大规模工程实现。到时候可以和面试官聊这些凸显自己的知识储备和大模型经验。
优点:1 虽然有些人说DPO, GRPO不用强化学习基础,只需要学习对应的小部分强化学习知识即可。但是为了更加全面的理解,提升竞争力,我觉得应该看一个课程,再去看强化学习后训练应该会事倍功半。2 课程时长7小时,较短,时间投入收益回报较大。
以上是我这一周大模型学习的相关进展和总结。上面列出一些方向,请你帮我选择一下,可能会有并行,但是最好给我下周制定一个切实的计划。当我把方向列出来的时候,我的方向似乎有些清晰了。我觉得下周最好是趁热打铁继续学习预训练和SFT微调部分,看课渗透强化学习后训练内容。这正是深度学习学习率控制的精髓所在合适强化学习后训练的精华之处,那就是稳定步伐,同时向前迈进!