我们平常说的 "word(词)" 在语言学里其实有两个不同层次:
- Word form(词形) :真实出现在文本或语音里的形式,比如 drink, drinks, drank, drinking。
- Lexeme(词位) :抽象的、固定意义单位,把这些不同的 word forms 组合起来。(维基百科)
通俗理解:Lexeme 就是词的"家族"。一个 lexeme 是一组意义相同但形式不同的 word forms 的集合。例如:
- DRINK(lexeme) 包含 drink, drinks, drank, drunk, drinking 等所有屈折形式。(dmort27.github.io)
- "houses" 是一个 word form,但它属于 HOUSE 这个 lexeme。(dmort27.github.io)
这解决了一个问题:我们为什么在字典里找不到 houses, drinks, passed, moving 的独立条目?因为字典记录的是 Lexeme (抽象意义单元)的 lemma(词典形式),而不是所有可能的 word forms。(dmort27.github.io)
1. Lexeme vs. Word Form
| 术语 | 意义 | 例子 |
|---|---|---|
| Lexeme(词位) | 抽象意义单位,是一组相关 word forms 的集合 | {drink, drinks, drank, drunk} |
| Word form(词形) | 具体在句子或文本中出现的形式 | drinks , drank |
| Lemma(词典形式) | 选择用来代表整个 lexeme 的标准形式 | drink (作为词典 headword) |
一句话区分:
- Word form 是"表面看到的文字/发音";
- Lexeme 是它们共享的基础意义单元;
- Lemma 是我们在字典里查到的"代表形式"。(维基百科)
2. Lexeme 在形态学里的角色是什么?
Morphology(形态学)讨论语言的结构和组成,而 lexeme 是分析的核心单位。(维基百科) 主要思想包括如下两点。
2.1. Lexeme 有一个 Paradigm(范式)
- Paradigm 是描述一个 lexeme 所有可能 word forms 的表格或结构。
- 不同的语法参数(如 tense, number, person)会对应不同 cell。
例如 drink 的 paradigm 显示其不同人称和时态变体。(dmort27.github.io)
这个 paradigm 比单纯的 word forms 列表更结构化,它体现了语言内部的 grammatical feature space(语法特征空间) 。(dmort27.github.io)
2.2. Lexeme 是 Morphological Patterns 的基础
在语言学里我们有两个层次来看词:
- Word-and-Paradigm morphology :语言学上有些理论把 word forms 本身组织成 paradigm,而不强调 morpheme 的拼接。这种方法直接以 lexemes 和其 paradigms 为基础。(维基百科)
- 其他理论可能侧重 morphemes 组合,但 lexemes 仍然是分析目标,因为它定义了哪些 forms"属于同一个意义单位"。(维基百科)
所以 lexeme 不是随意组合的形式,而是根据 意义和语法规律 把 forms 归类的单元。(维基百科)
3. 为什么 Lexeme 对 Subword Modeling(子词建模) 很重要?
在 NLP 和子词 tokenization 里,我们关注的是怎么把词拆分成有意义的 units(如 morphemes / subwords)。传统方法通常基于统计频率,如 BPE 或 WordPiece,但它们没有直接考虑到 lexeme 这个更抽象层次:
3.1. 有意义的 Token 应该反映 Lexeme 共性
如果我们划分 token 时只看 word form(比如把 drank 和 drunk 当作完全不同的碎片),模型可能学到的是表面频率而不是 共享意义结构。这会让:
✔ 语义表达不连贯
✔ Rare forms(稀有形式)难以泛化
而如果 tokenization 捕捉到了 lexeme 内的重复子串/模式,那么模型能更好学习到这个 lexeme 的 shared representation(共享表示)。(维基百科)
3.2. Lexeme's Paradigm 和 NLP 任务有关
很多 NLP 任务(如 morphological reinflection、paradigm completion)实际上需要理解 lexeme 的 paradigm 结构:
给定一个 lemma 和语法属性,生成相应的 word form 即是借助 lexeme 结构完成的任务。(dmort27.github.io)
这对于处理形态丰富的语言尤其重要。现代数据集如 UniMorph 就是在利用 lexeme + paradigm 的结构做标注。(dmort27.github.io)
4. 为什么我们不只说 "word"?
在语言学里,word 这个概念太模糊:
- 它既可以指具体的形式(word form),
- 也可以指一种意义单元。
语言学用 lexeme 把这两者分开,让分析更清晰:意义 vs 形式。(维基百科)
5. 小结
🔹 Word form 是表面的词形 (实际在文本里看到的)。
🔹 Lexeme 是抽象的核心意义单位 (一组 word forms 的"家族")。
🔹 Lemma 是字典里选的那个标准形式 ,代表整个 lexeme。(维基百科)
所有 drink, drinks, drank, drunk 都属于同一个 lexeme DRINK ,它们只是不同的 inflected word forms(词形变化形式)。(dmort27.github.io)