CMU Subword Modeling | 01 Things Smaller than Words

什么是 Subword Modeling(子词建模)?

在自然语言处理中(Natural Language Processing, NLP ),我们需要把文本变成数字,这样计算机才能"理解"语言。这个转换的核心步骤之一就是 Tokenization(分词/标记化) :把连续的文字拆成可以处理的最小单位。(dmort27.github.io)

传统的想法是把 word(单词) 当成单位。但是在实际中,这种方式有很大的问题。

1️⃣ 为什么单词不是"原子单位"(Words aren't atomic)

在语言学(Linguistics)里,"单词"其实并不是一个最基本、不可拆的单位。比如:

  • aren't 这个词,有人会把它看成一个词,
  • 但也可以拆成 are + not (两个词)或者 ar + en't (子词形式)。(dmort27.github.io)

这个拆分看起来像数学里的拆因数:选不同的拆法,会影响后面的表示和学习。核心问题是:

  • 如果用完整的词作为单位,词表(vocabulary)会非常大;
  • 而且很多词可能只出现过一两次 ⇒ 数据稀疏性 (sparsity)特别严重。(dmort27.github.io)

语言中的单词频率分布遵循 Zipf 定律 :极少数词非常常见,大部分词非常稀有。(dmort27.github.io) 这意味着如果我们用完整词做 token:

  • 很多词是"低频的"(rare words);
  • 这样的低频词难以学习它们的语义表示;
  • 模型容易因为见过太少而无法泛化。

2️⃣ 用子词(Subwords)作为 Token:Goldilocks 方案

"Subword" 的意思是介于完整单词和字符(characters)之间的单位。也就是说:

  • 字符级 tokenization(character-level)太碎,单个字符没有语义;
  • 单词级 tokenization(word-level)太粗,遇到新词就没办法;
  • 子词级 tokenization(subword-level) 刚刚好:既包含一定语义,也能拆解未登录词(OOV)。(百度智能云)

举个例子:

如果我们见到一个从未出现过的词 "unhappiness",用 word-level 分词,它是一个全新的 token;

而用 subword,则可能分成 un + happy + ness

这样即使没有见过 "unhappiness",模型仍然可以理解其中的成分意义。

这种方式的好处:

✔️ 缓解 open vocabulary problem(开放词汇问题)

✔️ 减少模型需要学习的词表大小

✔️ 让模型通过组合更小的单位学习更多语义

(以上概念在 NLP 领域都广泛使用)(百度智能云)


3️⃣ Linguistic Insight(语言学洞察):Duality of Patterning

语言是分层的!这叫做 Duality of Patterning

  • 最底层是 letters/phonemes(字母或音素)------最小但无语义;
  • 然后组合成 morphemes(语素) ------ 有基本意义单元;
  • 再组合成单词、短语和句子。(dmort27.github.io)

传统 word-level 分词跳过了这个层次结构,只看到了太大颗粒的单位。而 subword 分词就是尝试让 token 更接近语言本身的"有意义单位"。(dmort27.github.io)


4️⃣ 常见子词 Tokenization 方法

在实际模型中,我们需要一种算法来决定这些 subword 是怎么划分的。两个最常见的算法是:

✔️ Byte-Pair Encoding(BPE)

从字符开始,基于统计频率合并常见的字符对,逐渐得到高频子词。这个办法简单但效果非常好,是 GPT/Transformer 系列里常用的方法。(百度智能云)

✔️ Unigram / SentencePiece

从句子里直接学习 subword 概率模型,允许更灵活的划分方式。

这是 Google 的 SentencePiece 所采用的框架。(arXiv)


5️⃣ 为什么 Subword 很重要?

总结下来,用 subword 的核心优势:

🔹 解决 OOV 问题 (可以处理新词、新拼写)

🔹 控制词表规模 (不是每个单词都要学习一个 embedding)

🔹 提高泛化能力 (rare words 也能组合已有子词) (百度智能云)

这也是现代大语言模型如 BERT、GPT、T5 等,都采用 subword tokenization 的原因。


总结

传统 Word-Level Token Char-Level Token Subword Token
太大颗粒 太小颗粒 适中"刚好"
数据稀疏性大 语义太弱 语义 + 稳健
OOV 难处理 容易处理 很好处理

Subword modeling 就是让我们在 NLP 建模中找到一个既不大也不小、语义信息富、有泛化能力的 Token 粒度 。这让机器学习语言的时候既高效又更稳健。(dmort27.github.io)

相关推荐
文艺倾年2 小时前
【免训练&测试时扩展】Code Agent可控进化
人工智能·软件工程·强化学习·vibecoding
宇擎智脑科技2 小时前
SurrealDB:面向AI原生应用的新一代多模型数据库深度解析
数据库·人工智能·ai-native
一品威客爱开发2 小时前
网游 APP 开发:聚焦交互体验与多端协同
人工智能
前沿AI2 小时前
中关村科金 × 中国电信 以「文旅大模型 + 智能客服」点亮自贡灯会智慧服务新标杆
人工智能
木斯佳2 小时前
HarmonyOS实战(解决方案篇)—企业AI资产利旧:如何将已有智能体快速接入鸿蒙生态
人工智能·华为·harmonyos
LuH11242 小时前
【ILSVRC2012】ImageNet-1k数据集下载与处理脚本
python·深度学习·机器学习
A小码哥2 小时前
开发利器 openCode + Oh My OpenCode 四大核心智能体:Sisyphus、Prometheus、Atlas 与 Hephaestus
人工智能
HelloDong2 小时前
中国 AI Agent 争夺战:通义 1 亿 MAU、豆包预装手机、Kimi 做开发者工具——三条路线全拆解
人工智能
组合缺一2 小时前
OpenSolon v3.9.3, v3.8.5, v3.7.5, v3.6.8 年货版发布
java·人工智能·分布式·ai·llm·solon·mcp