CMU Subword Modeling | 09 Lexemes, or What Dictionaries Know about Morphology

我们平常说的 "word（词）" 在语言学里其实有两个不同层次：

Word form（词形） ：真实出现在文本或语音里的形式，比如 drink, drinks, drank, drinking。
Lexeme（词位） ：抽象的、固定意义单位，把这些不同的 word forms 组合起来。(维基百科)

通俗理解：Lexeme 就是词的"家族"。一个 lexeme 是一组意义相同但形式不同的 word forms 的集合。例如：

DRINK（lexeme） 包含 drink, drinks, drank, drunk, drinking 等所有屈折形式。(dmort27.github.io)
"houses" 是一个 word form，但它属于 HOUSE 这个 lexeme。(dmort27.github.io)

这解决了一个问题：我们为什么在字典里找不到 houses, drinks, passed, moving 的独立条目？因为字典记录的是 Lexeme （抽象意义单元）的 lemma（词典形式），而不是所有可能的 word forms。(dmort27.github.io)

1. Lexeme vs. Word Form

术语	意义	例子
Lexeme（词位）	抽象意义单位，是一组相关 word forms 的集合	{drink, drinks, drank, drunk}
Word form（词形）	具体在句子或文本中出现的形式	drinks , drank
Lemma（词典形式）	选择用来代表整个 lexeme 的标准形式	drink (作为词典 headword)

一句话区分：

Word form 是"表面看到的文字/发音"；
Lexeme 是它们共享的基础意义单元；
Lemma 是我们在字典里查到的"代表形式"。(维基百科)

2. Lexeme 在形态学里的角色是什么？

Morphology（形态学）讨论语言的结构和组成，而 lexeme 是分析的核心单位。(维基百科) 主要思想包括如下两点。

2.1. Lexeme 有一个 Paradigm（范式）

Paradigm 是描述一个 lexeme 所有可能 word forms 的表格或结构。
不同的语法参数（如 tense, number, person）会对应不同 cell。
例如 drink 的 paradigm 显示其不同人称和时态变体。(dmort27.github.io)

这个 paradigm 比单纯的 word forms 列表更结构化，它体现了语言内部的 grammatical feature space（语法特征空间） 。(dmort27.github.io)

2.2. Lexeme 是 Morphological Patterns 的基础

在语言学里我们有两个层次来看词：

Word-and-Paradigm morphology ：语言学上有些理论把 word forms 本身组织成 paradigm，而不强调 morpheme 的拼接。这种方法直接以 lexemes 和其 paradigms 为基础。(维基百科)
其他理论可能侧重 morphemes 组合，但 lexemes 仍然是分析目标，因为它定义了哪些 forms"属于同一个意义单位"。(维基百科)

所以 lexeme 不是随意组合的形式，而是根据 意义和语法规律 把 forms 归类的单元。(维基百科)

3. 为什么 Lexeme 对 Subword Modeling（子词建模）很重要？

在 NLP 和子词 tokenization 里，我们关注的是怎么把词拆分成有意义的 units（如 morphemes / subwords）。传统方法通常基于统计频率，如 BPE 或 WordPiece，但它们没有直接考虑到 lexeme 这个更抽象层次：

3.1. 有意义的 Token 应该反映 Lexeme 共性

如果我们划分 token 时只看 word form（比如把 drank 和 drunk 当作完全不同的碎片），模型可能学到的是表面频率而不是 共享意义结构。这会让：

✔ 语义表达不连贯

✔ Rare forms（稀有形式）难以泛化

而如果 tokenization 捕捉到了 lexeme 内的重复子串/模式，那么模型能更好学习到这个 lexeme 的 shared representation（共享表示）。(维基百科)

3.2. Lexeme's Paradigm 和 NLP 任务有关

很多 NLP 任务（如 morphological reinflection、paradigm completion）实际上需要理解 lexeme 的 paradigm 结构：

给定一个 lemma 和语法属性，生成相应的 word form 即是借助 lexeme 结构完成的任务。(dmort27.github.io)

这对于处理形态丰富的语言尤其重要。现代数据集如 UniMorph 就是在利用 lexeme + paradigm 的结构做标注。(dmort27.github.io)

4. 为什么我们不只说 "word"？

在语言学里，word 这个概念太模糊：

它既可以指具体的形式（word form），
也可以指一种意义单元。

语言学用 lexeme 把这两者分开，让分析更清晰：意义 vs 形式。(维基百科)

5. 小结

🔹 Word form 是表面的词形 （实际在文本里看到的）。

🔹 Lexeme 是抽象的核心意义单位 （一组 word forms 的"家族"）。

🔹 Lemma 是字典里选的那个标准形式 ，代表整个 lexeme。(维基百科)

所有 drink, drinks, drank, drunk 都属于同一个 lexeme DRINK ，它们只是不同的 inflected word forms（词形变化形式）。(dmort27.github.io)