Stanford CS336(2026)把从零构建语言模型的全流程整合到一门课,提供完整的大模型开发实战训练。
不仅有Transformer从头实现、高性能优化(FlashAttention2、Triton内核),还覆盖数据清洗去重、Scaling Laws、RLHF对齐,甚至分布式训练系统。
YouTube:youtube.com/playlist?list=PLoROMvodv4rMqXOcazWaTUHhq-yembLCV
主要作业:
- Assignment 1:实现Tokenizer、Transformer架构、优化器,从零训练语言模型;
- Assignment 2:性能剖析+FlashAttention2 Triton实现,构建分布式训练系统;
- Assignment 3:Scaling Laws分析,预测模型扩展性能;
- Assignment 4:处理Common Crawl原始数据,数据过滤+去重;
- Assignment 5:SFT+RL对齐,训练数学推理模型(可选DPO安全对齐)。
5单位实战课,支持GPU云服务(Modal $6.25/hr免费额度),Python/PyTorch熟练即可,适合AI研究者和工程师。
前置:CS229/CS224N线性代数概率论,超多代码量!
参考资料链接:
Stanford CS336 完整合集链接
- 课程主站
https://cs336.stanford.edu/
https://stanford-cs336.github.io/ - 课程 GitHub 仓库(课件、作业、代码)
https://github.com/stanford-cs336