CMU Subword Modeling | 03 Productivity and Generalization

Productivity & Generalization（生产力与泛化）这一讲的核心思想是：语言中的形态学规则 / 子词组合规则怎样推广到新词？ 也就是说，我们不只是看一个词怎么表示，我们关心一个模式能不能"生"出新词。(dmort27.github.io)

老师一开始先把 Tokenization（分词 / 子词分割）抽象成数学上的函数，给了一个统一的视角来看语言建模和形态组合。

我们把字符或音素序列（graphemes/phonemes）看成属于集合 (Σ^*)，把 Tokens（id 或 morpheme ID）看成属于集合 (Δ^*)

在像 BPE（Byte-Pair Encoding）这样的 Tokenizer 里，(κ(τ(σ)) = σ)（lossless）。但在真实的 morpheme segmentation（词素分割）里，不一定是 lossless。

老师通过经典的 Wug Test（Wug 实验） 来说明。

Jean Berko Gleason 的实验 ：孩子们看到一个从未见过的词 wug ，老师问"这个词的复数是什么？"大多数孩子回答 "wugs"，自动加上 -s 来复数化。

这说明：孩子不是简单记忆单词表。他们学到了规则，并且可以 推广到新词（non-ce words） 。(dmort27.github.io)

👉 这就是 Productivity（形态生产力）的核心含义：一个 morphological construction（形态构造方式）是不是能应用到新词上，并生成新形式？(dmort27.github.io)

讲义给了一个很直观的定义：Productivity = 规则能够被有效地泛化到新输入，并产生新输出的程度。 (dmort27.github.io) 换句话说：

图像比喻 ：把 Productivity 想象成一条连续的谱线------从 fossilized（"化石化"的老词规则）到 default（"默认的，高泛化规则"）。(dmort27.github.io)

一个 morphological construction / affix 会是 productive，当且仅当： 它出现在许多、并且相对 low-frequency（低频）的词类型上。换句话说，它不是靠记忆已有词，而是学到了一般化的模式。(dmort27.github.io) 例如：

那么这和我们做 Tokenization / 子词建模有什么关系？

语言模型（如 BERT / GPT）要处理 开域词（open vocabulary） ：词汇会不断创造新的组合（新词、新派生形式、新拼写）。(dmort27.github.io)

要做到这一点，模型不仅要把已有词看成一个独立 symbol，还要 理解规则本身，才能：

✅ 推断新派生词

✅ 处理以前未遇见过的组合

✅ 让表示（representation）更具泛化性

这正是 Subword Tokenization 的一大优势：

语言现象	核心概念
Productivity（生产力）	一个语言构造能否应用到新词上
High vs Low Productivity	规则是不是可以泛化
Generalization	模式可以推广到未见过的例子
Relation to Subword Modeling	模型不只记词，而是学结构规则

这一讲想传达的核心思想是：真正强大的语言系统不是记住很多词，而是理解构造规则，并能把它们用到新的场景中。 (dmort27.github.io)