bpe

自然语言处理：文本规范化大家好！很高兴又能在这儿和大家分享自然语言处理相关的知识了。在上一篇发布于自然语言处理：初识自然语言处理-CSDN博客为大家初步介绍了自然语言处理的基本概念。而这次，我将进一步深入这个领域，和大家聊聊自然语言处理中一个关键的基础环节：文本规范化。好了，我们直接进入正题。

深入解析 Transformers 框架（四）：Qwen2.5/GPT 分词流程与 BPE 分词算法技术细节详解前面我们已经通过三篇文章，详细介绍了 Qwen2.5 大语言模型在 Transformers 框架中的技术细节，包括包和对象加载、模型初始化和分词器技术细节：

BPE vs WordPiece：理解 Tokenizer 的工作原理与子词分割方法在应用的路上“蒙着头”走了一段，是时候回过头来理解其中的工作原理了。文章将以文本处理为例，介绍数据预处理中的关键组件——Tokenizer（分词器）。需要注意的是，这里是偏概念性的讲解，不会严谨地讨论具体函数的参数细节。

【大模型实战篇】大模型分词算法BPE(Byte-Pair Encoding tokenization)及代码示例词元化是针对自然语言处理任务的数据预处理中一个重要步骤，目的是将原始文本切分成模型可以识别和处理的词元序列。在大模型训练任务中，就是作为大模型的输入。传统的自然语言处理方法，如基于条件随机场的序列标注，主要采用基于词汇的分词方式，这与我们人类的语言认知更为契合。但是，这种分词方法在中文等语言中，可能会导致对同一输入产生不同的分词结果，从而生成包含大量低频词的庞大词表，并可能出现未登录词（OOV）的问题。因此，一些语言模型开始使用字符作为最小单位进行分词，例如，ELMo 使用了 CNN 词编码器。近年来，子