技术栈

分块读取文件

nuowenyadelunwen
4 小时前
bpe tokenizer·stanford 336·分块读取文件·assignment 1
CS336 Assignment 1:BEP Tokenizer 2 - 分块读取文档 & 预分词由于内存有限,无法一次将全部文件从磁盘加载到内存,因此,我们需要分块加载读取,需要设置一个常数 CHUNK_SIZE 确定每次加载的数据大小。 但是我们无法保证每次切分恰好都是完整的单词,所以,我们利用文档边界 <|endoftext|> 来实现每次切分,防止把一个完整的文档从中间切开,也也就不会把一个单词切分到前后两个 chunk 中。 我们每次读取一个 CHUNK_SIZE 大小的chunk,但是只取<|endoftext|> 的部分,<|endoftext|> 保存到一个变量 leftover 中,
我是有底线的