gpt2

基于BERT和GPT2的实现来理解Transformer的结构和原理核心就是编码器和解码器，简单理解：编码器就是特征提取，解码器就是特征还原。Transformer最初是一个Encoder-Decoder架构，用于机器翻译任务：

【大模型实战篇】大模型分词算法BPE(Byte-Pair Encoding tokenization)及代码示例词元化是针对自然语言处理任务的数据预处理中一个重要步骤，目的是将原始文本切分成模型可以识别和处理的词元序列。在大模型训练任务中，就是作为大模型的输入。传统的自然语言处理方法，如基于条件随机场的序列标注，主要采用基于词汇的分词方式，这与我们人类的语言认知更为契合。但是，这种分词方法在中文等语言中，可能会导致对同一输入产生不同的分词结果，从而生成包含大量低频词的庞大词表，并可能出现未登录词（OOV）的问题。因此，一些语言模型开始使用字符作为最小单位进行分词，例如，ELMo 使用了 CNN 词编码器。近年来，子

GPT(Generative Pre-Training)论文解读及源码实现(二)本篇为gpt2的pytorch实现，参考 nanoGPTnanoGPT如何使用见后面第5节data/shakespeare/prepare.py 文件源码分析