技术栈

词元化

minhuan
11 天前
大模型应用·词元化·bpe分词·wordpiece分词·unigram分词
大模型应用:大模型的词元化处理详解:BPE、WordPiece、Unigram.11词元化(Tokenization)是大模型预处理的核心步骤,将连续文本切分为模型可理解的最小语义单元(Token),这些词元可以是单词、子词或字符。中文没有像英文空格这样的天然分词边界,并且存在大量形近、义近字词,因此分词算法的选择直接影响模型效果。在大模型中,常见的子词词元化方法有BPE(Byte-Pair Encoding)、WordPiece和Unigram。下面我们将分别详细介绍这三种方法的基础原理、核心概念,并给出详细示例。最后,我们将提供一个综合的流程图来展示这些分词方法的典型流程。
Nicolas893
1 年前
大模型·预处理·分词·tokenize·wordpiece·词元化
【大模型实战篇】大模型分词算法WordPiece分词及代码示例继《大模型数据词元化处理BPE(Byte-Pair Encoding tokenization)》之后,我们针对大模型原始数据的分词处理,继续分享WordPiece分词技术【1】。
我是有底线的