bpe tokenizer

nuowenyadelunwen

Stanford CS336 Assignment 1 BPE Tokenizer trainning on tinystories dataset这个题目有两个要求按照作业要求，我将分三步来完成：编写训练脚本：包含加载数据、训练、保存模型、统计时间和内存。

nuowenyadelunwen

CS336 Assignment 1：BEP Tokenizer 2 - 分块读取文档 & 预分词由于内存有限，无法一次将全部文件从磁盘加载到内存，因此，我们需要分块加载读取，需要设置一个常数 CHUNK_SIZE 确定每次加载的数据大小。但是我们无法保证每次切分恰好都是完整的单词，所以，我们利用文档边界 <|endoftext|> 来实现每次切分，防止把一个完整的文档从中间切开，也也就不会把一个单词切分到前后两个 chunk 中。我们每次读取一个 CHUNK_SIZE 大小的chunk,但是只取<|endoftext|> 的部分，<|endoftext|> 保存到一个变量 leftover 中，

nuowenyadelunwen

Stanford CS336 Assignment 1 BPE Tokenizer 优化回顾下 BPETrainer_Simple 中，循环体内部是这样的：可以发现假设有 10,000 个单词，要进行 1,000 次合并。你的代码执行了 1,000×10,000≈1071,000×10,000≈107 次扫描操作。

nuowenyadelunwen

Stanford CS336 Assignment 1: BPE Tokenizer问题：计算机只认识数字，但我们要处理文本解决方案：Tokenizer 就是这个转换器Unicode 是什么？

爱听歌的周童鞋

斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Assignment 1: BPE Tokenizer本篇文章记录 CS336 作业 Assignment 1: Basics 中的 BPE Tokenizer 作业要求，仅供自己参考😄

我是有底线的