技术栈

nanogpt

西西弗Sisyphus
16 天前
transformer·attention·注意力·self-attention·nanogpt
构建中文版的 nanoGPT - 断点续训(resume from checkpoint)flyfish参考网址断点续训(resume from checkpoint)是指在训练过程中中断后,能够从上次中断的位置继续训练,而不是从头开始。这对于大规模数据集训练尤为重要,可以:
西西弗Sisyphus
16 天前
transformer·attention·注意力·self-attention·nanogpt
构建中文版的 nanoGPT - 中文版 nanoGPT 的分词(tokenization)flyfish 参考网址token 是模型用来表示自然语言文本的基本单位,即是模型用来表示自然语言文本的的最小单位。可以直观的理解为字或词;通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 token,不同的分词器有不同的分法,有的可能一个汉字为0点几个token。
myzzb
1 年前
python·gpt·学习·自然语言处理·nanogpt
GPT 结束语设计 以nanogpt为例目录GPT 结束语设计 以nanogpt为例1、简述2、分词设计3、结束语断点在手搓gpt的时候,可能会遇到一些性能问题,即关于是否需要全部输出或者怎么节约资源。
我是有底线的