【大模型】分词粒度

如何理解分词粒度?

分词粒度是一种要从哪种角度进行分词的;可以包括字符级(character level)、单词级(word level)、子词级(sub-word level)、(字节级(byte level));(很难说字节级应该被认为是一种技巧还是一种分词粒度)

例如对于一句话:This is the Hugging Face Course.,
字符级分词会按照单个字符进行分词,对于上面这段文本,可以分割为:

python 复制代码
['T', 'h', 'i', 's', 't', 'e', 'H', 'u', 'g', 'n', 'F', 'a', 'c', 'C', 'o', 'u', 'r', '.']

如果不区分大小写的话(bert-base-uncased是一个不区分大小写的分词器):会先将原文本全部变为小写:This is the Hugging Face Course.->this is the hugging face course.

python 复制代码
['t', 'h', 'i', 's', 'e', 'u', 'g', 'n', 'f', 'a', 'c', 'o', 'u', 'r', '.']

对于中文而言,以你好,这是一篇关于分词粒度的博客!为例,则会被分割为:

python 复制代码
['你', '好', '这', '是', '一', '篇', '关', '于', '分', '词', '粒', '度', '的', '博', '客']

单词级分词则会按照词进行分词,这种方法对于英文而言十分方便简单:

python 复制代码
['This', 'is', 'Hugging', 'Face', 'Course', '.']

如果按照句子中的空格进行分词,['This', 'is', 'Hugging', 'Face', 'Course.']

中文使用词汇级的分词器似乎并不是很多,似乎也不是很合适。
子词级分词按照词的子词进行分词,类似于利用词根词缀来进行分词。

python 复制代码
['This', 'is', 'the', 'Hu', '##gging', 'Face', 'Course', '.']

中文也有对应的子词级的分词,仍然是上述的文本:

python 复制代码
['你好', ',', '这', '是一', '篇', '关于', '分', '词', '粒', '度', '的', '博客', '!']

(中文分词来自于Qwen2.5

拿房子举个例子叭,尽管不一定贴切;有一个房子,我们可以将房子拆分为厨房、卧室、客厅、卫生间...,这是一种粒度;可以继续拆分为砖、水泥,玻璃...,这又是一种更细的粒度;砖、水泥、玻璃都可以被继续分解为沙子、泥等;这还是一种粒度,因此,房子到底是由什么组成的,取决于从哪种粒度上进行分析。
什么是字符? 字符可以理解文本数据中最小的组成部分。

字符可以是:

字母:AB

数字:01

标点符号:!?

特殊符号:@#

空格、换行等控制字符;

汉字:

等等

相关推荐
Loo国昌13 小时前
大型语言模型推理范式演进:从提示工程到思维算法
人工智能·算法·语言模型·自然语言处理
古城小栈16 小时前
边缘大模型本地部署与推理实战:以GPT-OSS-20B为例
人工智能·gpt·语言模型·边缘计算
小苑同学16 小时前
PaperReding:《LLaMA: Open and Efficient Foundation Language Models》
人工智能·语言模型·llama
AI架构师易筋17 小时前
模型上下文协议(MCP)完全指南:从AI代理痛点到实战开发
人工智能·microsoft·语言模型·llm·mcp
Coovally AI模型快速验证19 小时前
复杂工业场景如何实现3D实例与部件一体化分割?多视角贝叶斯融合的分层图像引导框
人工智能·深度学习·计算机视觉·3d·语言模型·机器人
我怎么又饿了呀20 小时前
DataWhale RAG入门级教程
人工智能·语言模型
Chloe.Zz21 小时前
微信小程序接入大模型实战 4:塔罗咨询室(含代码)
语言模型·微信小程序·小程序
AI算法蒋同学21 小时前
02.AIGC初学者指南-生成式人工智能和大型语言模型简介
人工智能·搜索引擎·语言模型
_Stellar1 天前
从输入到输出:大语言模型一次完整推理简单解析
人工智能·语言模型·自然语言处理
开放知识图谱1 天前
论文浅尝 | 大语言模型在带超关系的知识图谱上的推理(ICLR2025)
人工智能·语言模型·自然语言处理·知识图谱