在之前的章节我们看到,大部分词构造是通过 Concatenative morphology(连接形态学) 实现的:词素按顺序串联(prefix、suffix、compounding)组成词。例如:
- walk + ed → walked
- teach + er → teacher
这些都是线性、顺序的叠加(concatenate)。
Non-Concatenative morphology(非连接形态学) 则不是这样。它是指:词形构造不是靠简单串联 morphemes(词素),而是靠内部变换、重叠、重复、元音变化等操作 来形成新的词义或语法形式。(维基百科) 这种现象在很多语言中都存在,尤其是像 Semitic languages(闪米特语系) 里的阿拉伯语和希伯来语非常典型。(wikimd.com)
1. 非连接形态学常见形式
我们来分类看看它有哪些典型表现:
1️⃣ Apophony(元音交替) / Ablaut / Umlaut
这是最常见的非连接形态学形式之一:词不是加 suffix,而是通过 内部元音变化 表达不同词形。(维基百科) 英语例子:
| Singular | Plural |
|---|---|
| foot | feet |
| goose | geese |
| man | men |
| tooth | teeth |
(这些不是加 -s ,而是改变元音)(dmort27.github.io)。还有不规则过去式:
- freeze → froze , frozen
- sing → sang , sung
这种内部元音变化不是简单的拼接,而是词干内部"重塑",因此属于 non-concatenative morphology 。(维基百科)
2️⃣ Reduplication(重复)
在一些语言里,通过部分或全部重复一个词根来表达语法含义。例如:
- 假设一个语言里 lo 是"走",
重复成 lo-lo 可能表示"反复走"或"进行式"。
这种重复不是串联 suffix,而是把根本身映射成新的形式,也是内部变化 的一种。(HLT BME)
3️⃣ Infixation(中缀插入)
不同于 prefix(前缀)或 suffix(后缀),infix 是插入到词内部的 morpheme。例如(某些语言例子): sulat (写)变成 sumulat 表现某个语法意义.这里不是在词尾加东西,而是在词根内部插入 元素。(dmort27.github.io)
4️⃣ Transfixation(穿插词缀 / root-and-pattern)
这是最典型的 Semitic(闪米特)模式,是 root and pattern morphology(根与模板):
- 词根由一组辅音构成,比如阿拉伯语的 k-t-b(与"写作"相关)
- 不同语法形式通过在这个根的 元音模式 中穿插元音来表达,比如:
| Form | Pattern |
|---|---|
| katab (He wrote) | a-a- |
| kutib (He was written) | u-i- |
| kaatib (Writer) | aa-i- |
这种根(consonantal root)和模式(vowel pattern)的组合就是 non-concatenative morphology ,因为不是简单把词缀塞在词前或词后。(HLT BME)
5️⃣ Segmental Overwriting / Tonal Overwriting
有些语言不是加词缀,而是 替换词根的一部分音段 或音调来表达语法。例如把某个段替换成另一个段来表达"时态/语态"。在声调语言里,改变声调就可能表达不同含义。(HLT BME)
2. 把非连接形态学想象成什么?
可以把它想象成: 不是把词素"粘贴"在一起构词,而是把词内部的音/形结构重新组织、变化、重复或插入。 (维基百科)
这是语言里另一种非常普遍的构词方式,它强调结构上的 内部操作(internal modification) 而不是只是串在外面。(wikimd.com)
3. 为什么这对 Subword Modeling(子词建模) 有影响?
在前面的章节,我们主要讨论的是 concatenative processes(串联过程):
- prefixation / suffixation
- compounding
这些方式可以比较容易地用 linear tokenization 来处理。
⚠️ 但是 非连接形态学不符合线性拼接的假设:
✔ 不是简单 token1 + token2 组合
✘ 字符串可能会被内部改写、重复、插入或替换
因此:普通的 subword tokenizer(如 BPE、WordPiece)可能不适合非连接形态学语言。这些统计分割算法倾向于捕捉重复频率模式,而不是理解内部结构规则:
- 它们可能会"学到" surface form(表面形式),
- 但不能捕捉"内部变化规则"(比如模式穿插或元音交替)。(电子学术出版社)
这对于像阿拉伯语、希伯来语、非线性派生语言等都有很大挑战。(wikimd.com)
4. 一个更高阶抽象视角:用 函数 来看形态过程
讲义里提到可以把形态变化视为一种 函数映射(function from sign to sign):
morphological processes = functions that map one sign (词形式 + 意义) to another sign. (HLT BME)
-
对于串联形态:这个函数看起来像 f(root) = root + suffix
-
而对于非连接形态: 它可能是 f(root) = p(root) ,其中 p 是一个内部变换规则,如重叠、元音替换、插入等。
这个视角很抽象,但它强调:语言的 生成过程比线性拼接更复杂 ,所以如果我们想让分词/表示更贴近真实语言结构,就不能只靠线性 token。(HLT BME)
5. 小结
📌 Non-Concatenative morphology(非连接形态学) = 不是通过串联单元构词,而是通过内部变化(替换、重复、插入、模式穿插等)来表达语法或词义的系统。 (维基百科)
📌 它挑战了我们把词切成线性 token 的简单方法,因为:有时不是"哪里插什么后缀",而是"词内部怎么变化"。 (维基百科)
📌 对 Subword Modeling 来说: 如果一个语言的 morphology(形态)不是串联式的,那传统的 subword 分割算法可能不能很好捕获结构与规则 。 (电子学术出版社)