技术栈
bpe tokenizer
nuowenyadelunwen
13 小时前
大语言模型llm
·
bpe tokenizer
·
stanford cs336
·
llm scratch
·
336assignment 1
Stanford CS336 Assignment 1 BPE Tokenizer trainning on tinystories dataset
这个题目有两个要求按照作业要求,我将分三步来完成:编写训练脚本:包含加载数据、训练、保存模型、统计时间和内存。
nuowenyadelunwen
1 天前
bpe tokenizer
·
stanford 336
·
分块读取文件
·
assignment 1
CS336 Assignment 1:BEP Tokenizer 2 - 分块读取文档 & 预分词
由于内存有限,无法一次将全部文件从磁盘加载到内存,因此,我们需要分块加载读取,需要设置一个常数 CHUNK_SIZE 确定每次加载的数据大小。 但是我们无法保证每次切分恰好都是完整的单词,所以,我们利用文档边界 <|endoftext|> 来实现每次切分,防止把一个完整的文档从中间切开,也也就不会把一个单词切分到前后两个 chunk 中。 我们每次读取一个 CHUNK_SIZE 大小的chunk,但是只取<|endoftext|> 的部分,<|endoftext|> 保存到一个变量 leftover 中,
nuowenyadelunwen
2 天前
bpe tokenizer
·
stanford 335
·
llm scratch
Stanford CS336 Assignment 1 BPE Tokenizer 优化
回顾下 BPETrainer_Simple 中,循环体内部是这样的:可以发现假设有 10,000 个单词,要进行 1,000 次合并。你的代码执行了 1,000×10,000≈1071,000×10,000≈107 次扫描操作。
nuowenyadelunwen
9 天前
llm
·
bpe tokenizer
·
stanford cs336
Stanford CS336 Assignment 1: BPE Tokenizer
问题:计算机只认识数字,但我们要处理文本解决方案:Tokenizer 就是这个转换器Unicode 是什么?
爱听歌的周童鞋
23 天前
llm
·
assignment
·
cs336
·
bpe tokenizer
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Assignment 1: BPE Tokenizer
本篇文章记录 CS336 作业 Assignment 1: Basics 中的 BPE Tokenizer 作业要求,仅供自己参考😄
我是有底线的