tokenizer

阿牛大牛中

大模型tokenizer重构流程大模型tokenizer层再训练（选取Qwen7B试验，重构token层）最近公司可能想训练一个蛋白质大模型，需要了解一下大模型tokenizer重构，之后可能要训练，这里做了一定的总结。

[EAI-023] FAST: Efficient Action Tokenization for Vision-Language-Action Models论文标题：FAST: Efficient Action Tokenization for Vision-Language-Action Models 论文作者：Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine 论文链接：https://arxiv.org/abs/2501.09747 论文出处：/ 论文被引：/ 项

Transfoemr的解码器（Decoder）与分词技术在自然语言处理（NLP）领域，解码器（Decoder）和分词技术是两个至关重要的概念。解码器是序列生成任务的核心组件，而分词则是将文本数据转换为可处理形式的基础步骤。

沉下心来学鲁班

ScratchLLMStepByStep：训练自己的Tokenizer分词器是每个大语言模型必不可少的组件，但每个大语言模型的分词器几乎都不相同。如果要训练自己的分词器，可以使用huggingface的tokenizers框架，tokenizers包含以下主要组件：

tokenizer、tokenizer.encode、tokenizer.encode_plus比较在我们使用Transformers库进行自然语言处理任务建模的过程中，基本离不开Tokenizer类。我们需要这些Tokenizer类来帮助我们加载预训练模型的分词模块，并将文本转化为预训练模型可接受的输入格式。

BPE vs WordPiece：理解 Tokenizer 的工作原理与子词分割方法在应用的路上“蒙着头”走了一段，是时候回过头来理解其中的工作原理了。文章将以文本处理为例，介绍数据预处理中的关键组件——Tokenizer（分词器）。需要注意的是，这里是偏概念性的讲解，不会严谨地讨论具体函数的参数细节。

通俗易懂理解Token分词（经验版）常识| 大模型收费计量单位之Token概念在 AI 领域，Token 是指模型处理的基本数据单位。它可以是单词、字符、短语甚至图像片段、声音片段等。例如，一句话会被分割成多个 Token，每个标点符号也会被视为单独的 Token。

BERT tokenizer 增加全角标点符号bert 的词表，哪怕是 bert-base-chinese，对中文全角标点的支持不是很好因此在微调bert时，需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

大模型：如何利用旧的tokenizer训练出一个新的来？背景：我们在用chatGPT或者SD的时候，发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多，为什么呢？这其中就有一个叫做tokenizer的东西在作怪。

我是有底线的