从零开始训练小型语言模型之minimind

西京刀客2025-03-09 19:59

github: https://github.com/jingyaogong/minimind

目前市面上的大语言模型动辄上百亿参数，训练成本高昂。就算是自己想学习和研究，也会被巨大的硬件门槛挡在门外。而 MiniMind 通过精妙的设计，把模型参数压缩到了最小，让个人开发者也能亲手训练 AI 模型！

最小版本仅有 26M 大小（约为 GPT-3 的 1/7000），一张普通的游戏显卡就能运行。项目提供了完整的训练流程：

本项目的目标是把上手LLM的门槛无限降低，直接从0开始训练一个极其轻量的语言模型。

为什么建议大家从小模型开始，特别是一些开源小模型？

不说大模型数据训练和微调所需要的资金，算力等问题，就大模型训练所需要的训练和微调数据的收集，就已经是一个很大的工程量了。

之所以建议大家刚开始以小模型为主，原因就是因为从技术原理来说，大模型和小模型没有本质上的区别；只不过大模型和小模型由于量变导致的质变，大模型的复杂度与小模型不能同日而语。

而从学习和使用的角度来说，大模型和小模型最大的差距就是对算力的需求；虽然从效果上来说，小模型远不如大模型，但学习和使用小模型能够让我们快速地摸清大模型技术的脉络和主要框架。

最重要的是小模型有很强的实操性，因为其算力成本低，甚至可以在个人电脑上进行部署和运维，而且使用个人电脑也可以对它们进行训练和微调，这样就大大降低了我们的学习难度