技术栈
llm scratch
nuowenyadelunwen
20 天前
大语言模型llm
·
bpe tokenizer
·
stanford cs336
·
llm scratch
·
336assignment 1
Stanford CS336 Assignment 1 BPE Tokenizer trainning on tinystories dataset
这个题目有两个要求按照作业要求,我将分三步来完成:编写训练脚本:包含加载数据、训练、保存模型、统计时间和内存。
nuowenyadelunwen
21 天前
bpe tokenizer
·
stanford 335
·
llm scratch
Stanford CS336 Assignment 1 BPE Tokenizer 优化
回顾下 BPETrainer_Simple 中,循环体内部是这样的:可以发现假设有 10,000 个单词,要进行 1,000 次合并。你的代码执行了 1,000×10,000≈1071,000×10,000≈107 次扫描操作。
我是有底线的