CMU Subword Modeling | 10 Grammatical Properties

解读CMU Subword Modeling | 10 Grammatical Properties (dmort27.github.io)。

在自然语言中，不同的词形（例如词尾变化）往往承载着语言的 语法信息 ，这些信息可以看作是很多 维度（dimensions） 的组合。比如：

这些都是语法属性。一个词形可能同时反映多个属性的值。直觉解释:

把语法属性想象成每个词带着的标签（tag）集合

类似我们给一张照片打上多个标签（colorful, outdoor, people, night...），每个词形也有一组"语法标签"。

不同语言词形上这些语法标签组合的方式不同，但每种语言都有它自己的组合规则。

讲义内容里列了很多可能的属性维度：

比如：

在英语里，"he runs " vs "he ran "，动词 run 的形式变化主要表达时态（现在 vs 过去）。

在德语里，一句话里名词要同时体现 格、数、性别，比如 der Mann (主格阳性单数) vs den Mann (宾格阳性单数)。

你可以把每个词想成一个标签组合：

{Tense=Past, Person=3, Number=Singular, Gender=Neutral}

"词形不是乱变的，它是在传递信息"

就像编程里给一个对象加属性一样，每个属性都会影响这个对象的行为。

语法属性其实就是词汇和语法之间的桥梁，它帮助语言模型理解：

例如，BERT/Transformer 这种模型在学习子词表示（subword modeling）时，往往会编码这些语法信息以便捕获语言规律，这对于语言理解和生成任务特别重要。(dmort27.github.io)

讲义里提到 "范式（paradigm）"：

范式 = 不同语法属性值组合的全排列。

→ 比如：Case × Number 可能得到 {Nom-Sg, Nom-Pl, Gen-Sg, Gen-Pl, Acc-Sg, Acc-Pl}

"范式就像算法的所有输入组合，每一种组合对应一个输出形态（词形）。" 也就是说，范式是语言在所有可能组合下如何表达的整体结构。(dmort27.github.io)

核心概念

为什么学习这些对 NLP 有用？

在 subword modeling 和 language modeling 里，词语不仅仅是符号，还蕴含着结构化信息，理解 grammatical properties 能让算法更好地学习这些规律，而不是仅依靠统计。(dmort27.github.io)